본문 바로가기
통계학 공부

38. 두 모집단 비교 - 모평균 비교 I

by 에쓰지 2023. 5. 24.

(1) 독립표본과 대응표본

독립표본과 대응표본은 두 개의 모집단을 비교하기 위해 사용되는 통계적 방법이다

▶ 독립표본 (Independent Samples):

  • 독립표본은 서로 독립적인 두 개의 표본을 이용하여 모집단 간의 차이를 검정하거나 비교하는 방법이다.
  • 두 개의 표본은 독립적으로 추출되며, 각각 다른 모집단에서 완전히 독립적으로 선택된다.
  • 각각의 표본은 동일한 크기를 가질 수도 있고, 크기가 다를 수 있다.
  • 독립표본은 보통 두 모집단의 평균, 비율, 분산 등의 차이를 검정하는 데 사용된다.

 

 대응표본 (Paired Samples):

  •  같은 개체 또는 짝을 이루는 개체로부터 얻은 두 개의 관측치를 사용하여 모집단 간의 차이를 검정하거나 비교하는 방법이다.
  • 두 개의 관측치는 개체 또는 짝을 이루는 개체로부터 얻어진 것이므로 관측치 간의 연관성이 있다.
  • 대응표본은 시간의 차이, 동일한 개체의 전후 측정, 왼쪽과 오른쪽 등의 대응 관계를 가질 수 있다.
  • 대응표본은 보통 같은 개체 또는 짝을 이루는 개체들에 대한 전후 차이, 처리 전후 차이 등을 검정하는 데 사용된다.

 

▶ 두 표본의 차이점

  • 독립표본은 서로 독립적인 두 개의 표본을 사용하며, 대응표본은 관측치 간의 대응 관계를 가진 두 개의 표본을 사용한다.
  • 독립표본은 각 표본이 서로 독립적으로 추출되므로 개체 간의 연관성이 없다. 반면, 대응표본은 관측치 간의 대응 관계로 인해 개체 간의 연관성이 있다.
  • 독립표본은 주로 두 모집단의 차이를 비교하는 데 사용되고, 대응표본은 주로 관측 전후 또는 처리 전후의 차이를 비교하는 데 사용된다.
  • 독립표본은 동일한 크기의 표본을 가질 수도 있고, 다른 크기의 표본을 가질 수 있다. 대응표본은 대응되는 관측치 쌍을 가지기 때문에 동일한 크기의 표본을 가진다.

 

▶ 두 모집단 비교의 예시

    진통제를 복용한 그룹과 위약을 복용한 그룹을 대상으로 진통효과 비교

    고혈압약을 복용하기 전과 후의 혈압 감소 효과 비교

    다른 두 지역을 대상으로 국정운영 지지율을 비교

    일란성 쌍둥이를 대상으로 두 다이어트 방법의 효과 비교

        ①, ③ : 별개의 두 집단 비교독립표본

        ②, ④ : 쌍을 이룬 두 집단 비교대응표본 (짝비교)

  ※ 독립표본은 주로 두 모집단의 차이를 비교하는 데 사용되고, 대응표본은 주로 관측 전후 또는 처리 전후의 차이를 비교하는 데 사용된다. 따라서, 모평균비교는 표본의 성질에 따라 비교하는 방법에 차이가 있다.  

 

(2) 모평균 비교 - 독립표본 , 분산이 같은 경우

 

▶ 두 모집단 비교에서의 가정

    ① 두 모집단 모두 정규분포 형태를 가정

   ② 정규분포라고 보기 어려움

  • 표본 크기가 큼 : 대표본
  • 표본 크기가 크지않고 이상점(들)이 존재

 

▶ 정규 모집단 가정 - 독립표본, 분산이 같을 경우,

 

▶ 점추정량

  •    두 모집단의 비교에서 관심모수는 두 모평균의 차이라 할 수 있다. 

  •    관심모수에 대한 점추정량은 각각의 표본평균의 차이를 사용할 수 있다.

 

▶ 표본 평균의 차이 (X-Y) 통계적 성질

▶ 정규 확률변수의 선형 결합정규분포를 따름

  • 두 표본평균의 차이 역시 정규분포를 따른다.

▶ 표준화

  • 통상 모분산, 모표준편차를 알 수 없는 경우가 많다.
  • 따라서, 표본분산, 표본표준편차를 대신 사용한다.

  • 합동표본분산(Pooled S.V.)
합동표본분산은 두 개 이상의 표본으로부터 계산된 분산을 의미한다. 일반적으로 두 개의 독립적인 표본의 분산을 합하여 계산된 값이다.
두 개의 표본이 주어진 경우, 
첫 번째 표본의 분산: S₁² ,  두 번째 표본의 분산: S₂²
합동표본분산: S₁² + S₂²
합동표본분산은 각각의 표본에서 얻은 분산의 합으로서, 두 표본의 분산을 합쳐서 전체 표본의 변동성을 나타낸다. 이를 통해 두 표본이 각각 가지는 변동성을 종합적으로 평가할 수 있다.
합동표본분산은 독립적인 두 개의 표본에 대한 분산을 계산할 때 유용하게 사용될 수 있다.

 

▶ 중심축량

 

▶ 모평균 비교의 신뢰구간

    신뢰구간의 직관적 개념

        점추정량 ± 임계값 X 표준오차 (SE)

  • 신뢰구간

 

▶ 모평균 비교의 가설검정

 가설설정

  • 귀무가설 : 현상태에 대한 잠정적 가정
  • 대립가설 : 우리가 알고 싶은 것

 검정통계량 : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용하는 통계량

 검정통계량의 분포와 유의수준을 비교 검토한다.

 결론

  • 기각역 : 비정상영역 ⇒ 귀무가설 기각 ( 대립가설 채택 )
  • 채택역 : 정상영역 ⇒ 귀무가설 유지 ( 대립가설 기각 )

 

◈ 예제: 행동유형에 따른 콜레스테롤 비교

  • 유형 A는 x 로, 유형 B는 y라고 하면, 

▶ 행동유형에 따른 콜레스테롤 비교시 유형 A와 유형 B의 차이에 대한 95% 신뢰구간은?

 

▶ 유형A가 유형B보다 콜레스테롤이 높은지에 대한 가설검정은?

  • 가설설정

  • 검정통계량

  • 검정통계량과 유의수준 분위수와 비교

  • 결론 : 유의수준 5%에서 귀무가설 기각,  행동유형 A의콜레스테롤 수치가 행동유형B보다 높다.​
  • P-Value

 

댓글