본문 바로가기
통계학 공부

24. 이산확률분포 - 포아송 분포 (Poisson Distribution)

by 에쓰지 2023. 5. 6.
확률분포의 분류 
▷ 이산확률분포  : 베르누이 분포, 이항분포, 초기하분포, 포아송분포, 기하분포, 음이항분포, 다항분포 등 
▷ 연속확률분포  : 정규분포, t 분포, 카이제곱분포, F 분포 등

 

(1) 포아송 분포 (Poisson Distribution)란 ?

  • 포아송 분포는 단위시간 동안 혹은 단위공간에서 어떤 사건이 발생하는 횟수를 나타내는 이산 확률 분포이다.
  • 이항분포에서 n이 커지면 계산하는데 어려움이 있는데, 포아송분포를 사용하여 이항분포의 근사치를 알 수 있다.
  • 포아송분포는 어떤 사건의 발생건수와 같은 계수자료 모델링을 할 때 많이 사용된다. 예를 들어, 단위 시간당 발생하는 교통사고 수, 단위 면적당 나타나는 군락의 개수 등을 모델링하는 데 사용된다.

 

(2) 이항분포와 포아송분포

 

이항분포 B ~ (n, p) 에서 n이 커지면 계산하는데 어려움이 있다.

  •  p 가 작은 경우 ( 0 근처에 있는 경우 )
  •  p가 큰 경우 ( 1 근처에 있는 경우 ) ⇒ 실패횟수로 문제를 바꾸면 위와 같은 상황임.
  •  p가 0.5에서 멀리 떨어져 있지 않은 경우
  •  X ~ B(n,p) , n = 1,000 , p = 0.005 일 때

          ⇒  p가 매우 작으면 큰 x에 대한 확률은 무시할 정도로 작음위 그래프에서 x 15이상일 때 0에 가까움.

이항분포의 확률질량함수, 기대값, 분산, 표준편차

포아송분포의 확률질량함수, 기대값, 분산, 표준편차

이항분포에서 포아송분포 유도

            ⇒ n이 커지면 각각에 근사한다.

            ⇒ 이를 각각에 대입하면,

           ※ 자연 상수 e

 

발생 가능성이 희박한 사건이 임의의 구간에서 평균적으로 λ번 발생한다고 했을 때,

  • 구간을 나누었을 때 각 구간의 발생 빈도는 서로 독립 (independent increment)
  • 구간의 위치와 관계없이 동일 길이의 구간에서의 평균 발생 빈도는 동일 ( Stationary increment )

​▶ X : 위의 상황에서 해당 사건이 일어날 횟수

▶  확률 질량함수 그리기 ( λ 1 일때 )

예제 : 반도체 생산공정

  • 평균 500개 중 한 개 정도가 불량품
  • 불량품은 무작위로 발생
  • 제작된 1500개 반도체중 불량품이 2개 이하일 확률은 ?

  ▶ 이항분포 X ~ B (1500 , 1/500) 에서 X 2 이하인 경우

  • 반도체의 불량확률 : p = 1/500
  •  X : 1500개 반도체 중 불량품의 수

  ▶ 포아송 근사 : λ = np = 1500 X 1/500 = 3

​      이항분포와 포아송 근사의 차이가 거의 없음.

 λ 5 이하이면 포아송 근사가 이루어진다.

 

(3) 포아송 분포 (Poisson Distribution)의 성질

  • 이항분포와 같은 성질을 가지고 있다.​

이항분포

      X ~ B(m , p) , Y ~ B(n , p) 이고, X Y 가 독립이면   ⇒  X+Y ~ B (m+n , p) ​

포아송분포

      X ~ Pois( λ1 ) , Y ~ Pois( λ2 ) 이고, X Y 가 독립이면  ⇒ X+Y ~ Pois( λ1 + λ2 )

다른 방법으로,

따라서 , E(X) = λ = Var(X)​

만약 포아송 분포에서 자료를 뽑았다면,

  ⇒ 반대로 표본평균과 분산의 차이가 많이 난다면 포아송분포가 아닐 가능성이 많다.

댓글