본문 바로가기
통계학 공부

30. 이항분포의 정규근사

by 에쓰지 2023. 5. 12.
모집단의 모수를 알 수 없기 때문에 이론적으로 표본에서 추출한 모든 표본에 대해 통계량을 계산할 수는 없다. 따라서, 표본에서 얻은 통계량이나 검정통계량 등이 어느 정도의 변동성을 가지는지에 대한 정보를 이용하여 추론을 하게 된다. 이 때, 표본에서 얻은 통계량의 분포를 표집분포(sampling distribution)라고 부르며, 표집분포를 이용하여 통계적 추론을 수행한다.

 

(1) 이항분포의 정규근사

 

  • 이항분포는 대표적인 이산형 확률분포이지만, 표본 크기가 충분히 크고 확률 파라미터 값이 적당한 경우에는 정규분포로 근사할 수 있다.
  • 이러한 근사를 사용하면, 이항분포를 다루기 어려운 경우에도 정규분포의 성질을 활용하여 다양한 추론을 수행할 수 있다.
  • 특히, 정규분포의 선형성과 대칭성, 표준화 등의 성질을 이용하면 이항분포에 대한 확률 계산이 간단하고 직관적으로 이루어집니다. 이러한 이유로, 이항분포의 정규근사는 통계적 추론에서 매우 중요한 역할을 한다.

▶ 이항분포의 근사

    X ~ B ( n, p ) 인 이항분포에서 n이 클 때,

  • p 가 작은 경우 → 포아송 근사
  • p가 큰 경우 → 포아송 근사
  • p가 0.5에서 많이 벗어나지 않는 경우 → 정규근사

◈ 예제 : X ~ B ( 100, 0.4 ), E(X) = 40 일때,

  • 이항분포

  • 포아송 근사

        ⇒ p 가 0.5 근처라 포아송 근사가 적합하지 않다.

▶ 이항분포 기대값과 분산 : X ~ B ( n, p )

▶ n이 큰 경우 중심극한정리에 의해, 표본평균값의 분포는 정규분포에 가까와진다.

▶ 위 식을 표준화하면,

▶ 표준화된 식의 분자,분모에 n을 곱해 정리하면,

▶ 위 식은 아래 식으로 표현할 수 있다.

      ⇒ 즉, X는 정규분포에 근사한다는 것을 보여준다.

 

▶ X ~ B ( 100, 0.04 ) 와 X ~ B ( 100, 0.4 ) 의 분포

    ⇒ p가 0.5에 가까울 때 정규근사가 더 잘된다.

(2) 연속성 수정 (Continuty Correction)

  • 이항분포의 정규근사에서 연속성 수정(continuity correction)은 이항분포의 확률을 정규분포로 근사하는 경우 발생하는 근사 오차를 보정하기 위한 방법이다.
  • 이항분포는 이산형 확률분포로, 특정한 확률 변수가 가질 수 있는 값들이 이산적이다.
  • 반면에 정규분포는 연속형 확률분포로, 특정한 확률 변수가 가질 수 있는 값들이 연속적이다.
  • 이러한 차이 때문에 이항분포의 확률을 정규분포로 근사화할 때, 근사 오차가 발생한다.

    ▶ 연속성 수정

      ⇒ 이항분포 x 값에서 1/2 만큼 더하거나 빼서 수정한다.

 

◈ 예제 : 여론조사

  • 전체국민 60%가 A 정책에 대해 찬성한다고 주장

▶ 150명을 무작위로 뽑아 찬성하는 사람의 비율을 알아보려고 할 때, 적극찬성하는 사람이 78명 이하일 확률은 ?

  •  X ~ B ( 150, 0.6 ) 일 때 P(X≤78) ?
  • 이항분포 가정하에서의 정확한 확률 = 0.0284
  • 정규분포 근사로 풀면,

       ⇒ 연속성 수정을 했을 때 정확한 확률에 더 근접하다.

 

 

 

댓글