본문 바로가기
통계학 공부

3. 표본추출 - 가중치 (Weight)

by 에쓰지 2023. 4. 13.

(1) 가중치 (Weight)의 의미

     표본추출에서 가중치는 표본의 각 관측치에 대한 중요도를 나타내는 값이다. 모집단에서 추출한 표본이 모집단을 대표하기 위해서는 표본이 모집단의 다양한 특성을 반영해야 한다. 하지만 실제로는 모든 개체를 표본으로 추출하는 것이 어려운 경우가 많다. 이럴 때 가중치를 사용하여 특정 개체나 집단의 중요도를 높여서 표본에 반영할 수 있다.

  예를 들어, 인구 조사를 할 때 여성과 남성의 비율이 2:3인 인구에서 표본을 추출한다면, 표본에서 여성과 남성이 각각 동일한 비율로 추출되지 않을 수 있다. 이때, 여성과 남성에 대한 가중치를 설정하여 표본에서 여성과 남성이 적절한 비율로 추출되도록 할 수 있다. 가중치를 사용하면 표본의 편향성을 줄이고 통계 분석 결과의 정확성을 높일 수 있다.

 표본 추출을 할 때 가장 유의해야 하는 점은 대표성인데, 대표성을 확보하기 위해 고려해야 할 부분이 가중치이다. 가중치(Weight)란 전체에서 가지는 중요성을 높이기 위해 특정부분이나 요소에 일정한 수치를 더하는 것을 말한다.

표본추출로 나온 표본(자료)가 전체에서 얼마나 중요한가에 대한 평가가 필요하다. 이 평가라는 것이 가중치를 부여하는 것이다.

모집단의 구성정보는 표본을 추출하는데 있어 매우 중요한 사전정보이다.

이 구성정보에 따라 가중치를 부여하는 것은 표본조사 결과의 정확도를 높일 수 있는 핵심요소 이다.

모집단이 서로 다른 특성을 가지는 부모 집단들로 이루어진 경우, 특정 부모집단에서 표본이 많이 추출되거나 적게 추출되면 전체 모집단에 대해 왜곡된 결과가 나올 수 있다.

이는 표본추출설계에 충실히 반영해도 실제 표본획득 과정에서 문제가 발생할 수 있다.

 

(2)  가중치 ( Weight ) 적용

가중치를 적용한다는 것은 한 표본이 몇 개를 대표하는 지를 확정하는 것이다.

  ◈ 가중치의 중요성을 보여주는 예 

  ★ 개표방송 진행중인 상황으로 현재의 득표율이 유지되었을 때 누가 당선될 것인가 ?

  • 지역구 : A지역 7만 명 투표, B지역 3만 명 투표
  • 개표율 : A지역 10%, B지역 50%
  • A지역 1번 후보자 득표율 60%, 2번 후보자 40%
  • B지역 1번 후보자 득표율 30%, 2번 후보자 70%
  • 현재 누적 득표수 : 1번 후보자 8,700 표 , 2번 후보자 : 13,300 표

     PPDAC 를 적용해보면,

  •      Problem : 1번 후보가 당선될 것이다. ( 가설 )

   ▶ 가중치를 적용하지 않았을 때

  • Plan : 가중치를 적용하지 않고 현재까지 득표율을 기준으로 판단한다.
  • Data : 현재까지의 득표율
  • 전체 개표수에서 각 후보자의 득표수를 나눠주면
  • 1번 후보자 득표율 : 8,700 / ( 8,700 +13,300 ) = 39.5 %
  • 2번 후보자 득표율 : 13,300 / ( 8,700 + 13,300 ) = 60.5 %
  • Analysis : 1번 후보자는 득표율 39.5% 이므로 전체 예상 득표수는 100,000 x 39.5% = 39,500 표
  • 2번 후보자는 득표율 60.5% 이므로 전체 예상 득표수는 100,000 x 60.5% = 60,500 표
  • Conclusion : 현재 득표율을 유지한다면 2번 후보자가 당선될 것이다.

 ▶ 가중치를 적용하였을 때

  • Plan : 가중치를 적용하여 지역별 득표율을 기준으로 판단한다.
  • Data : 현재까지의 각 후보의 득표수는
  • 1번 후보자 득표수 : 70,000 x 0.1 x 0.6 + 30,000 x 0.5 x 0.3 = 8,700
  • 2번 후보자 득표수 : 70,000 x 0.1 x 0.4 + 30,000 x 0.5 x 0.7 = 13,300
  • 현재 개표율이 A지역은 10% 이므로 득표수 1 표는 10표를 대표한다고 볼 수 있다.
  • B지역은 50% 이므로 득표수 1 표는 2표를 대표한다.
  • Analysis : 1번 후보자는 전체 예상 득표수는 70,000 x 0.6 + 30,000 x 0.3 = 51,000 표
  • 2번 후보자는 전체 예상 득표수는 70,000 x 0.4 + 30,000 x 0.7 = 49,000 표
  • Conclusion : 현재 각지역의 득표율을 유지한다면 1번 후보자가 당선될 것이다.

☞   가중치를 적용했는지 여부에 따라 결과가 달리 나온다. 그만큼 대표성 문제에서 가중치는 중요한 부분이다.

 

(3)  가중치 ( Weight ) 적용 방법

    가중치는 표본추출방법에 따라 달라진다.

     모집단 수 = N , 표본 수 = n이라하면

        기본가중치 

  •      단순확률추출법 : 각 표본에 대한 설계가중치 = N/n
  •      계통추출법 : 각 표본에 대한 설계가중치 = N/n = k
  •     층화확률추출법 : 층의 크기와 해당 층에서의 표본크기에 따라 달라짐
  •     집락추출 : 집락의 크기와 해당 집락에서의 표본크기에 따라 달라짐

             가중치 적용은 한 표본이 몇 개를 대표하는지 확인하는 경우이다.

       ▶ 추출 확률이 같을 경우

  •     표본으로 선택될 확률 : n / N
  •     표본에서 차지하는 비중 : 1/n
  •     즉 표본 한명이 N/n 명을 대표

      ▶ 추출 확률이 다를 경우

  •     추출 확률이 상이함에 따라 조정이 필요하다.

 

 ◈ 예제 : 대학졸업자 취업 현황조사

수도권 과 지방 대학
모집단 : 수도권 = 400,000 / 지방 = 200,000
표본크기 : 수도권 = 500, 지방 = 500

   ▶ 각 지역의 표본추출률

  •   수도권 = 500 / 400,000 = 0.00125
  •   지방 = 500 / 200,000 = 0.0025

  ▶ 각 지역의 표본 한 명이 대표하는 수

  •    설계가중치 : 1 / 추출률
  •    수도권 : 1 / 0.00125 = 800 / 표본 한 명은 800 명을 대표함.
  •    지방 : 1 / 0.0025 = 400 / 표본 한 명은 400 명을 대표함.
응답률 : 수도권 = 60%, 지방 = 80% 응답 으로 가정하면,

   ▶ 무응답에 따른 가중치 : 대체 표본이 없거나 일부 항목에 답을 하지 않은 경우에 부여

  •   응답 가중치 = 1 / 응답률
  •   수도권의 응답 가중치 = 1 / 0.6 = 10/6 
  •   따라서 수도권 응답자는 800 X 10/6 = 1,333.3 명 대표
  •   지방의 응답 가중치 = 1 / 0.8 = 10/8
  •    따라서 지방 응답자는 400 X 10/8 = 500 명 대표
성별에 따라 취업 현황에 차이가 있음 (가정)
수도권과 지방 졸업자의 성별 구성은 비슷함 (가정)
◈ 남녀 비율 : (45%, 55%)
    표본에서의 비율 : (60%, 40%)

   ▶ 사후층화를 위한 가중치 : 가중 표본 분포가 어떤 특성에 대해 알려진 모집단 분포와 일치하도록 조정

  •     모집단의 특성을 알고 있다면 표본을 모집단의 특성과 일치하도록 조정하는 가중치
  •     남자의 가중치 = 45/60
  •     여자의 가중치 = 55/40

   ▶ 최종 가중치 : 위의 모든 가중치를 곱해서 적용

  •     응답한 수도권 남자 한 명이 800 X 10/6 X 45/60 = 1000 명 대표
  •     응답한 수도권 여자 한 명이 800 X 10/6 X 55/40 = 1833.3 명 대표
  •     응답한 지방 남자 한 명이 400 X 10/8 X 45/60 = 375 명 대표
 

★☆ 가중치는 추출한 표본이 정확한 대표성을 가질 수 있도록 조정해주는 작업이다. ☆★

'통계학 공부' 카테고리의 다른 글

5. 자료의 요약 정리  (0) 2023.04.15
4. 자료의 분류와 특성  (0) 2023.04.14
2. 표본추출 (Sampling)  (0) 2023.04.12
1. 통계학이란 ?  (0) 2023.04.11
0. 통계학 공부를 시작하며  (0) 2023.04.11

댓글