본문 바로가기
통계학 공부

37. 모비율에 대한 통계적 추론 & 정규근사

by 에쓰지 2023. 5. 19.

(1) 모비율에 대한 통계적 추론

 

  • 모비율에 대한 통계적 추론은 범주형 데이터에서 사용되며, 모집단의 비율에 대한 추론을 수행하는 것을 말한다.
  • 주로 두 개의 범주를 가진 데이터에서 각 범주의 비율을 추론하고, 두 그룹 간의 비율 차이를 검정하는 데 사용된다.
  • 모비율에 대한 추론에서는 주로 이항분포와 정규근사를 활용한다. 
  • 이항분포는 범주형 데이터의 분포를 표현하는 확률분포로 사용된다, 
  • 표본의 크기가 크거나 비율이 근사적으로 정규분포를 따를 때 정규근사를 적용하여 추론을 수행할 수 있다.

▶ 점추정량

  • 베르누이 확률표본

  •  성공횟수

  • 표본비율

  • 기대값과 분산

  • 표본크기가 크면, 중심극한정리에 의해 정규분포에 근사한다.

  • 정규근사는 표본크기(n)과 모비율(θ)에 영향을 받는다. 표본크기가 클수록 모비율이 0.5에 가까울 수록 정규근사가 잘 된다.

 

(2) 모비율의 구간추정

   ▶ 중심축량은 정규분포에 근사한다.

  ▶ 구간추정

  • 100(1-α ) % 신뢰구간

  • 표준오차에  모비율(θ)이 포함되어 있다. 모비율 대신에 표본비율을 사용한다.

예제 : 독일 Saxony 지역의 1889년 병원기록

  • 이 지역에서 출생한 73380명 중 아들은 38100명이다.
  • 이 지역의 남아 출생비율 에 대한 95% 신뢰구간은 ?

  • 95% 신뢰구간

 

(3) 모비율의 가설검정

 가설검정의 절차

 가설설정

  • 귀무가설 : 현상태에 대한 잠정적 가정
  • 대립가설 : 우리가 알고 싶은 것

 검정통계량

  •  귀무가설하에서 표본의 비정상성을 결정하기 위해 사용하는 통계량

 검정통계량의 확률분포와 유의수준을 비교 검토한다.

 결론

  • 기각역 : 비정상영역 ⇒ 귀무가설 기각 ( 대립가설 채택 )
  • 채택역 : 정상영역 ⇒ 귀무가설 유지 ( 대립가설 기각 )

 

 예제 : 독일 Saxony 지역의 1889년 병원기록

  • 이 지역에서 출생한 73380명 중 아들은 38100명이다.
  • 남아 출생비율이 여아 출생비율보다 높은가 ?

  ① 가설설정

  • 귀무가설은 비율이 같다(θ=0.5) 로 설정할 수 있다.

 ② 검정통계량

 검정통계량의 확률분포와 유의수준을 비교 검토한다.

 결론

  • 귀무가설 기각 : 남아 출생비율이 여아 출생비율보다 높다고 할 수 있다.
  • P-value : 

 

(4) 표본크기가 작은 경우

  • 중심극한정리를 이용한 정규근사가 어렵다.
  • 가설검정의 경우 이항분포를 이용하여 p-value를 계산하여 유도한다.

  • 단, 대립가설이 같지 않다일 경우는 위 방법 대신 다른 방법을 사용해야한다.

 

(5) 모비율 기반 표본크기 결정

  • 모수 추정을 위해서는 여러가지 표본을 수집하기 위해서 비용과 시간 등의 제약조건에 영향을 받는다.
  • 표본크기는 모수 추정의 정확도 및 신뢰도에 영향을 준다.
  • 따라서 모수추정을 위한 표본크기는 정확도와 신뢰도, 비용과 시간을 고려한 최적의 크기를 정해야 한다.​
  • 신뢰도 → 신뢰수준
  • 정확도 → 오차범위 ( 오차 :  표본비율 - 모비율 )

▶ 구간 추정에 기반한 표본크기 결정방법

  • 정규근사이므로 정규분포 분위수를 사용한다.

  • θ 에 대한 정보가 없는 경우 모든 에 대해 성립하도록 n을 결정, θ (1-θ ) 가 0.5일 때 가장 크다.

예제 : 여론조사

  • 95% 신뢰수준에서 오차범위가 5% ( = 0.05) 이내의 결과를 내기위한 여론조사를 최소 몇 명을 해야하나?

  • θ 가 0.5 일 때 n=384.16 이므로 최소한 385명에 대한 여론조사를 해야한다.

오차범위가 2.5% 이고 두 후보자의 지지율 차이가 5% 이하이면 두 후보자의 지지율이 오차범위내에 있다고 함.

 

▶ 가설 검정을 위한 표본크기 결정

  • 가설설정

  • 검정통계량 

  • 유의수준

  • 검정력

  • 검정력을 달리 풀어보면,

  • 표본크기

 

예제 : 임상시험

  • 기존 진통제를 복용했을 때 진통효과를 10시간 이상 지속될 확률은 40%였는데 예비연구결과 새로운 진통제는 50%라고 하자.
  • 5% 유의수준과 80% 검정력으로 유효성 평가를 하려면 몇 명의 피험자를 대상으로 임상시험을 진행해야 하는가 ?
  •  귀무가설 : 0.4 , 대립가설 : 0.5 , 유효효과 : 0.1
  • 0.95의 표준정규분포 분위수 : 1.96 , 0.8의 표준정규분포 분위수 : 0.842

  • 최소 191명이 필요하다.

댓글