(1) 가중치 (Weight)의 의미
표본추출에서 가중치는 표본의 각 관측치에 대한 중요도를 나타내는 값이다. 모집단에서 추출한 표본이 모집단을 대표하기 위해서는 표본이 모집단의 다양한 특성을 반영해야 한다. 하지만 실제로는 모든 개체를 표본으로 추출하는 것이 어려운 경우가 많다. 이럴 때 가중치를 사용하여 특정 개체나 집단의 중요도를 높여서 표본에 반영할 수 있다.
예를 들어, 인구 조사를 할 때 여성과 남성의 비율이 2:3인 인구에서 표본을 추출한다면, 표본에서 여성과 남성이 각각 동일한 비율로 추출되지 않을 수 있다. 이때, 여성과 남성에 대한 가중치를 설정하여 표본에서 여성과 남성이 적절한 비율로 추출되도록 할 수 있다. 가중치를 사용하면 표본의 편향성을 줄이고 통계 분석 결과의 정확성을 높일 수 있다.
표본 추출을 할 때 가장 유의해야 하는 점은 대표성인데, 대표성을 확보하기 위해 고려해야 할 부분이 가중치이다. 가중치(Weight)란 전체에서 가지는 중요성을 높이기 위해 특정부분이나 요소에 일정한 수치를 더하는 것을 말한다.
표본추출로 나온 표본(자료)가 전체에서 얼마나 중요한가에 대한 평가가 필요하다. 이 평가라는 것이 가중치를 부여하는 것이다.
모집단의 구성정보는 표본을 추출하는데 있어 매우 중요한 사전정보이다.
이 구성정보에 따라 가중치를 부여하는 것은 표본조사 결과의 정확도를 높일 수 있는 핵심요소 이다.
모집단이 서로 다른 특성을 가지는 부모 집단들로 이루어진 경우, 특정 부모집단에서 표본이 많이 추출되거나 적게 추출되면 전체 모집단에 대해 왜곡된 결과가 나올 수 있다.
이는 표본추출설계에 충실히 반영해도 실제 표본획득 과정에서 문제가 발생할 수 있다.
(2) 가중치 ( Weight ) 적용
가중치를 적용한다는 것은 한 표본이 몇 개를 대표하는 지를 확정하는 것이다.
◈ 가중치의 중요성을 보여주는 예
★ 개표방송 진행중인 상황으로 현재의 득표율이 유지되었을 때 누가 당선될 것인가 ?
- 지역구 : A지역 7만 명 투표, B지역 3만 명 투표
- 개표율 : A지역 10%, B지역 50%
- A지역 1번 후보자 득표율 60%, 2번 후보자 40%
- B지역 1번 후보자 득표율 30%, 2번 후보자 70%
- 현재 누적 득표수 : 1번 후보자 8,700 표 , 2번 후보자 : 13,300 표
PPDAC 를 적용해보면,
- Problem : 1번 후보가 당선될 것이다. ( 가설 )
▶ 가중치를 적용하지 않았을 때
- Plan : 가중치를 적용하지 않고 현재까지 득표율을 기준으로 판단한다.
- Data : 현재까지의 득표율
- 전체 개표수에서 각 후보자의 득표수를 나눠주면
- 1번 후보자 득표율 : 8,700 / ( 8,700 +13,300 ) = 39.5 %
- 2번 후보자 득표율 : 13,300 / ( 8,700 + 13,300 ) = 60.5 %
- Analysis : 1번 후보자는 득표율 39.5% 이므로 전체 예상 득표수는 100,000 x 39.5% = 39,500 표
- 2번 후보자는 득표율 60.5% 이므로 전체 예상 득표수는 100,000 x 60.5% = 60,500 표
- Conclusion : 현재 득표율을 유지한다면 2번 후보자가 당선될 것이다.
▶ 가중치를 적용하였을 때
- Plan : 가중치를 적용하여 지역별 득표율을 기준으로 판단한다.
- Data : 현재까지의 각 후보의 득표수는
- 1번 후보자 득표수 : 70,000 x 0.1 x 0.6 + 30,000 x 0.5 x 0.3 = 8,700
- 2번 후보자 득표수 : 70,000 x 0.1 x 0.4 + 30,000 x 0.5 x 0.7 = 13,300
- 현재 개표율이 A지역은 10% 이므로 득표수 1 표는 10표를 대표한다고 볼 수 있다.
- B지역은 50% 이므로 득표수 1 표는 2표를 대표한다.
- Analysis : 1번 후보자는 전체 예상 득표수는 70,000 x 0.6 + 30,000 x 0.3 = 51,000 표
- 2번 후보자는 전체 예상 득표수는 70,000 x 0.4 + 30,000 x 0.7 = 49,000 표
- Conclusion : 현재 각지역의 득표율을 유지한다면 1번 후보자가 당선될 것이다.
☞ 가중치를 적용했는지 여부에 따라 결과가 달리 나온다. 그만큼 대표성 문제에서 가중치는 중요한 부분이다.
(3) 가중치 ( Weight ) 적용 방법
가중치는 표본추출방법에 따라 달라진다.
◈ 모집단 수 = N , 표본 수 = n이라하면
▶ 기본가중치
- 단순확률추출법 : 각 표본에 대한 설계가중치 = N/n
- 계통추출법 : 각 표본에 대한 설계가중치 = N/n = k
- 층화확률추출법 : 층의 크기와 해당 층에서의 표본크기에 따라 달라짐
- 집락추출 : 집락의 크기와 해당 집락에서의 표본크기에 따라 달라짐
☞ 가중치 적용은 한 표본이 몇 개를 대표하는지 확인하는 경우이다.
▶ 추출 확률이 같을 경우
- 표본으로 선택될 확률 : n / N
- 표본에서 차지하는 비중 : 1/n
- 즉 표본 한명이 N/n 명을 대표
▶ 추출 확률이 다를 경우
- 추출 확률이 상이함에 따라 조정이 필요하다.
◈ 예제 : 대학졸업자 취업 현황조사
수도권 과 지방 대학
모집단 : 수도권 = 400,000 / 지방 = 200,000
표본크기 : 수도권 = 500, 지방 = 500
▶ 각 지역의 표본추출률
- 수도권 = 500 / 400,000 = 0.00125
- 지방 = 500 / 200,000 = 0.0025
▶ 각 지역의 표본 한 명이 대표하는 수
- 설계가중치 : 1 / 추출률
- 수도권 : 1 / 0.00125 = 800 / 표본 한 명은 800 명을 대표함.
- 지방 : 1 / 0.0025 = 400 / 표본 한 명은 400 명을 대표함.
응답률 : 수도권 = 60%, 지방 = 80% 응답 으로 가정하면,
▶ 무응답에 따른 가중치 : 대체 표본이 없거나 일부 항목에 답을 하지 않은 경우에 부여
- 응답 가중치 = 1 / 응답률
- 수도권의 응답 가중치 = 1 / 0.6 = 10/6
- 따라서 수도권 응답자는 800 X 10/6 = 1,333.3 명 대표
- 지방의 응답 가중치 = 1 / 0.8 = 10/8
- 따라서 지방 응답자는 400 X 10/8 = 500 명 대표
성별에 따라 취업 현황에 차이가 있음 (가정)
수도권과 지방 졸업자의 성별 구성은 비슷함 (가정)
◈ 남녀 비율 : (45%, 55%)
표본에서의 비율 : (60%, 40%)
▶ 사후층화를 위한 가중치 : 가중 표본 분포가 어떤 특성에 대해 알려진 모집단 분포와 일치하도록 조정
- 모집단의 특성을 알고 있다면 표본을 모집단의 특성과 일치하도록 조정하는 가중치
- 남자의 가중치 = 45/60
- 여자의 가중치 = 55/40
▶ 최종 가중치 : 위의 모든 가중치를 곱해서 적용
- 응답한 수도권 남자 한 명이 800 X 10/6 X 45/60 = 1000 명 대표
- 응답한 수도권 여자 한 명이 800 X 10/6 X 55/40 = 1833.3 명 대표
- 응답한 지방 남자 한 명이 400 X 10/8 X 45/60 = 375 명 대표
★☆ 가중치는 추출한 표본이 정확한 대표성을 가질 수 있도록 조정해주는 작업이다. ☆★
'통계학 공부' 카테고리의 다른 글
5. 자료의 요약 정리 (0) | 2023.04.15 |
---|---|
4. 자료의 분류와 특성 (0) | 2023.04.14 |
2. 표본추출 (Sampling) (0) | 2023.04.12 |
1. 통계학이란 ? (0) | 2023.04.11 |
0. 통계학 공부를 시작하며 (0) | 2023.04.11 |
댓글