확률분포의 분류
▷ 이산확률분포 : 베르누이 분포, 이항분포, 초기하분포, 포아송분포, 기하분포, 음이항분포, 다항분포 등
▷ 연속확률분포 : 정규분포, t 분포, 카이제곱분포, F 분포 등
(1) 포아송 분포 (Poisson Distribution)란 ?
- 포아송 분포는 단위시간 동안 혹은 단위공간에서 어떤 사건이 발생하는 횟수를 나타내는 이산 확률 분포이다.
- 이항분포에서 n이 커지면 계산하는데 어려움이 있는데, 포아송분포를 사용하여 이항분포의 근사치를 알 수 있다.
- 포아송분포는 어떤 사건의 발생건수와 같은 계수자료 모델링을 할 때 많이 사용된다. 예를 들어, 단위 시간당 발생하는 교통사고 수, 단위 면적당 나타나는 군락의 개수 등을 모델링하는 데 사용된다.
(2) 이항분포와 포아송분포
◈ 이항분포 B ~ (n, p) 에서 n이 커지면 계산하는데 어려움이 있다.
- p 가 작은 경우 ( 0 근처에 있는 경우 )
- p가 큰 경우 ( 1 근처에 있는 경우 ) ⇒ 실패횟수로 문제를 바꾸면 위와 같은 상황임.
- p가 0.5에서 멀리 떨어져 있지 않은 경우
- X ~ B(n,p) , n = 1,000 , p = 0.005 일 때
⇒ p가 매우 작으면 큰 x에 대한 확률은 무시할 정도로 작음. 위 그래프에서 x가 15이상일 때 0에 가까움.
◈ 이항분포의 확률질량함수, 기대값, 분산, 표준편차
◈ 포아송분포의 확률질량함수, 기대값, 분산, 표준편차
▶ 이항분포에서 포아송분포 유도
⇒ n이 커지면 각각에 근사한다.
⇒ 이를 각각에 대입하면,
※ 자연 상수 e
▶ 발생 가능성이 희박한 사건이 임의의 구간에서 평균적으로 λ번 발생한다고 했을 때,
- 구간을 나누었을 때 각 구간의 발생 빈도는 서로 독립 (independent increment)
- 구간의 위치와 관계없이 동일 길이의 구간에서의 평균 발생 빈도는 동일 ( Stationary increment )
▶ X : 위의 상황에서 해당 사건이 일어날 횟수
▶ 확률 질량함수 그리기 ( λ 가 1 일때 )
◈ 예제 : 반도체 생산공정
- 평균 500개 중 한 개 정도가 불량품
- 불량품은 무작위로 발생
- 제작된 1500개 반도체중 불량품이 2개 이하일 확률은 ?
▶ 이항분포 X ~ B (1500 , 1/500) 에서 X가 2 이하인 경우
- 반도체의 불량확률 : p = 1/500
- X : 1500개 반도체 중 불량품의 수
▶ 포아송 근사 : λ = np = 1500 X 1/500 = 3
⇒ 이항분포와 포아송 근사의 차이가 거의 없음.
▶ λ 가 5 이하이면 포아송 근사가 잘 이루어진다.
(3) 포아송 분포 (Poisson Distribution)의 성질
- 이항분포와 같은 성질을 가지고 있다.
▶ 이항분포
X ~ B(m , p) , Y ~ B(n , p) 이고, X와 Y 가 독립이면 ⇒ X+Y ~ B (m+n , p)
▶ 포아송분포
X ~ Pois( λ1 ) , Y ~ Pois( λ2 ) 이고, X와 Y 가 독립이면 ⇒ X+Y ~ Pois( λ1 + λ2 )
다른 방법으로,
따라서 , E(X) = λ = Var(X)
만약 포아송 분포에서 자료를 뽑았다면,
⇒ 반대로 표본평균과 분산의 차이가 많이 난다면 포아송분포가 아닐 가능성이 많다.
'통계학 공부' 카테고리의 다른 글
26. 이산확률분포 - 다항분포 (Multinomial Distribution) (0) | 2023.05.08 |
---|---|
25. 이산확률분포 - 기하분포 & 음이항분포 (0) | 2023.05.07 |
23. 이산확률분포 - 초기하분포(Hypergeometric Distribution) (0) | 2023.05.03 |
22. 이산확률분포 - 베르누이 분포 & 이항분포 (0) | 2023.05.02 |
21. 확률변수의 공분산과 상관관계 (0) | 2023.05.01 |
댓글