본문 바로가기
통계학 공부

2. 표본추출 (Sampling)

by 에쓰지 2023. 4. 12.

(1) 표본 추출 개념

  • 통계학은 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해,

          →  모집단으로부터 일부의 자료(표본)를 수집하고

          →  수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후

         →   표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문이다.

 

표본추출은 통계학의 시작이라고 할 수 있다. 모집단으로부터 일부의 자료인 표본을 추출하여 해당 표본을 대표할 있도록 선택하는 것이 매우 중요하다.

만약 표본추출이 잘못되어 적절하지 않은 표본이 선택된다면, 해당 표본을 기반으로 모집단에 대한 추론은 틀릴 수밖에 없습니다. 따라서 표본추출은 통계적 분석을 수행하는 있어 가장 기본이 되는 요소 하나이다. 

표본추출 방법은 다양하며, 각각의 방법에 따라 선택된 표본이 어떤 특성을 갖게 될지 결정된다. 예를 들어, 단순랜덤추출, 층화추출, 집락추출 등이 있으며, 이러한 방법들을 적절하게 사용하여 표본을 추출해야 한. 

또한, 표본의 크기도 중요한 문제입니다. 표본의 크기가 작으면 모집단을 대표할 없을 뿐만 아니라, 통계적으로 유의한 결과를 얻기 어렵습니다. 따라서 표본의 크기는 충분히 크게 설정해야 합니다. 

결론적으로, 표본추출은 모집단에 대한 정확한 추론을 위해 매우 중요한 역할을 한. 통계학을 공부하는 있어서 표본추출에 대한 이해는 필수적이다.

 

(2) 표본 추출을 하는 이유

 

통계학의 유용성

: 경제학, 경영학, 사회과학, 인문과학, 법학, 의학, 공학, 자연과학 등 분야를 막론하고 통계학을 사용한다.

   우리는 통계에 묻혀 산다고 할 수 있다. 

주변에서 특히 뉴스 등에서 볼 수 있는 예시에는 ,

  •  10% 담배값 인상이 청소년층의 흡연을 어느 정도 줄이나?
  • 직업훈련은 재 취업률을 높이는가? 임금률에 미치는 효과는 ?
  • 외국인 직접투자가 늘면 경제성장률이 제고되는가?
  • 특정 광고가 매출증가 효과를 가져왔는가?
  • 노동시장에서 여성에 대한 차별이 존재하는가? 

위 예시의 질문들에 대해 확실하게 아는 방법은 모든 대상을 조사, 즉 전수조사를 하면 확실히 알겠지만, 전수조사를 못하는 경우가 많다. 대부분의 이유는 비용과 시간이 너무 많이 들기 때문이다. 이 때 필요한 것이 표본을 추출해서 즉 일부만 선택해서 조사하는 것이다.

(3) 표본의 대표성

모집단으로부터 표본을 뽑을 때 가장 중요하게 살펴봐야 하는 것이 이 표본을 뽑을 때 전체(모집단)를 잘 반영할 수 있게 뽑아야 한다는 것이다. 즉 표본이 모집단을 대표할 수 있어야 하는 것이다.

표본의 대표성이 중요한 것을 알려주는 사례로 "1936년 미국 대통령 선거 결과 예측"이 있다.

 

★★★ 1936년 미국 대통령 선거 결과 예측 ★★★ 

당시 대통령 후보로는 공화당은 Landon, 민주당은 Roosevelt 였다고 한다. 

 

Literary Digest’ 라는 여론 조사 회사는 1916~1932년 선거결과 정확하게 예측한 바

있으며, 규모가 큰 회사였다고 한다. 이 회사는 구독자, 전화기 및 자동차 보유자

 236만여 명의 의견을 분석하여 나온 결과는 Landon 57%, , Roosevelt 43%

공화당 Landon 후보의 당선을 예측하였다.

 

 

 반면, 당시 신생회사였던 'Gallup' (갤럽) 은 단순 무작위 표본으로 5만명을 조사하여 나온 결과는 Landon 44%, Roosevelt 56%로 민주당 Roosevelt 후보의 당선을 예측하였다. 심지어 갤럽은 다이제스트사가 루즈벨트 후보에 대하여 44% 로 예측할 것이라고 예측했다고 한다.

 

 

결과는 Roosevelt 63%, Landon 37% 로 루즈벨트 후보가 당선되었다.

이를 계기로 ‘Literary Digest’는 쇠락의 길을 걸었고, Gallup(갤럽)은 급성장하며 오늘날 여론조사의 대명사가 되었다고 한다.

Literary Digest’의 실패 원인을 살펴보자면, 

표본추출방식에 심각한 문제가 있었다. 표본의 숫자가 크면 좋은 줄 알고 많은 수의 여론 조사를 시행했는데, 당시 전화기 및 자동차 보유자는 부자들만이 가능했다고 하니, 부자들만의 여론 조사를 할 꼴인 셈이다. "대표성" 에서 심각한 오류가 있어 잘못된 결과가 나올 수 밖에 없었다.

반면 Gallup은 단순 무작위 표본으로 대표성 있게 표본을 뽑아 시행했고, 표본 중 다이제스트사와 같은 부분만 분석하여 그들의 예측까지 예측할 수 있었다.

대표성을 가진 표본 추출이 얼마나 중요한 지를 알려주는 사례이다. 이런 이유로 통계학 수업을 들을 때 마다 자주 예시로 소개되는 것 같다.

 

(4) 모집단 (population) 

관심의 대상이 되는 집단이 모집단(population) 이라 한다.

모집단을 특성에 따라 분류해 볼 수 있다. (목표모집단 vs 조사모집단) 

   1. 목표모집단 (target population) 

관심대상이 되는 모든 기본단위들의 집합이며, 시공간상 명확하게 정의된 연구대상 집단을 말한다.

예를 들면 수도권 거주 고등학생 학부모 대상 조사를 한다면, 표본추출틀이 필요하지만 구상하기가 애매하다.

조사시점, 지리적인 경계, 연령 기준 등 이 명확하다. 

 

 2. 조사(연구)모집단(survey population) 

조사가능모집단 (accessible population)이라 할 수 있다.

현실적인 제약 고려한 표본추출 대상 기본단위들의 집합이며, 표본추출틀(sampling frame)을 통해 추출될 수 있는 기본단위들의 집합을 말한다.

예를들면 전화여론조사를 할 때 "전화번호부(표본추출틀)에 등재된 전화보유 가구의 성인"이 조사모집단이 된다.

 

(5) 표본 추출 방법 

아래와 같이 표본 추출 방법을 나눴지만 결국 궁극적인 목표는 대표성을 가질 수 있게 표본을 추출하는 방법을 찾는 것이다. 

  1. 확률(임의)표본추출(probability sampling)  

  • 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법
  • 표본추출틀 (sampling frame, 표집틀) 필요
  • 특정한 표본이 선정될 확률을 토대로 추정오차를 확률개념을 이용하여 과학적으로 설명
  • 세부 종류로는 단순확률추출, 계통추출, 집락추출, 층화추출 등이 있음.

    ▶ 단순확률(임의)추출 (SRS, simple random sampling)

  •           크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출
  •           모든 단위들이 표본에 선택될 확률이 동일
  •           예 : 가구조사 : P ( 집 추출) = n/N 
  •           실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초 (표본추출 기초 이론)
  •           모집단에서 임의로 n개의 표본을 추출할 때 각 표본이 추출될 확률이 모두 동일한 확률이 되도록 추출하는 방법

 

 ▶ 계통표본추출(systematic sampling) 

  •    표집틀에서 처음 1~k번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 표본으로 추출

                 < 계통표본추출과정 > 

  •    추출간격 k의 결정 : N/n 또는 정확도를 고려 결정
  •    1~k에서 난수 하나를 선택해서 시작점을 선정
  •    시작점에 k를 반복적으로 더해서 표본추출

                예시 : 모집단 크기 = 500, 표본크기 = 50

                                                   3,13,23…,493 을 표본으로 선택.

  •   표집틀이 없어 고유번호 부여, 난수발생 등 단순확률추출법을 적용하기 어려운 실제 조사현장에서 폭 넓게 활용 
  •    예: 선거출구조사, 주차장 출입 차량에 대한 조사

 

▶ 층화확률추출(stratified random sampling)

  •  모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출
  • 부모집단(subpopulation)의 구성 내역을 알고 있음
  • 부모집단 간 특성에 차이가 있음
  • 전체 모집단 크기 N, i번째 층의 크기 Ni, Wi = Ni/N

  •  비슷한 관측치로 이루어진 층(strata)를 만들고 각 층에서 임의로 표본을 추출하는 방법이다.
  • 층안은 동질적이고 층 사이는 이질적으로 만들어야 한다. 

            < 층화 표본추출 과정 >

  •  층의 구성 (성별, 연령, 지역 등)
  • 각 층에서 독립적으로 표본 추출 >> 단순확률추출 사용
  • 예: 서울시내 서점의 월 매출액 추정을 500개 서점 표본추출

             500개 중 대형 서점이 10개인 경우와 20개인 경우 추정치 변동이 큼

             대형,중형,소형으로 분류 후 각 층에서 일정 수 표본추출

              층의 비율에 맞게 추출

              층의 비율에 맞지 않으면 가중치 반영

          < 1936년 미 대선 결과 예측 >

    위 예시에서 ‘Literary Digest’ 가 층화 확률 추출로 상위층, 중위층, 하위층을 나누어서 각각 설문조사를 하였다면 결과는 달라졌을 것이다.

▶ 집락표본추출(cluster sampling)

  •  서로 인접한 조사단위들을 묶어 구성한 집락(cluster)를 추출하고, 이들 집락 내의 조사단위들을 조사
  • 예를 들어 서울시 고등학생 월평균 사교육비 추정한다고 했을 때,

       < 단순추출법 (SRS) 적용시 >

  • 추출틀 : 서울시 전체 고등학생명단 →  작성비용 과다
  • 조사대상 : 서울 전역에 산재됨 → 조사비용 과다

       < 집락추출 적용시 >

  • 1 단계 : 고등학교추출(PSU, primary sampling unit)
  • 2 단계 : 학생추출 ( 학급 → 학생 )

      < 집락추출법 활용 이유 >

  • 조사단위에 대한 표집틀 확보에 어려움
  • 상대적으로 집락에 대한 표집틀 확보는 쉬움
  • 조사단위들이 산재되어 관측비용 증가
  • 지역적으로 집중되도록 표본추출

모집단을 몇 개의 집락(cluster)으로 나눈 후 집락가운데 몇 개의 집락을 단순임의추출로 추출한 후 추출된 집락 안의 자료를 모두 표본을 간주하는 방법이다집락 간의 비슷하지만 개개의 집락은 모집단 전체의 특징을 반영할 수 있어야 한다.

 

2.  비확률표본추출(non-probability sampling)

  •  모집단의 대상자가 표본으로 선택될 수 있는 기회가 균등하게 이루어지지 못하여, 특정 표본이 선정될 확률을 알 수 없다.
  • 추론결과의 정확도(precision)가 낮은 편이라 할 수 있다.
  • 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용된다.
  • 종류로는 편의(convenience) 추출, 유의(purposive)추출, 할당(quota)추출 등이 있다.

 

▶ 편의추출 (Convenience Sampling)

  •  가장 접근하기 쉬운 사람이나 사물을 연구대상으로 선택하여 활용하는 것이다.
  •  예: 자발적 참여, 백화점 앞, 포털사이트 인터넷 조사

 

▶ 할당추출 (Quota Sampling )

  • 그룹 내 조사대상 선택에서 랜덤화 과정 없다.
  • 모집단의 계층을 확인하여 그와 비례적으로 표본을 추출함으로써 계층을 대표하도록 하는 방식
  • 계층 선정 시 모집단에 대한 연구자의 지식과 문헌고찰이 필수적
  •  예: 연령, 성별, 종교, 인종, 학력수준, 직위 등

 

▶ 유의추출 (purposive Sampling)

  •  연구자가 모집단을 대표한다고 생각되는 대상자들을 선택하는 방식(전문가 선택) 

 

'통계학 공부' 카테고리의 다른 글

5. 자료의 요약 정리  (0) 2023.04.15
4. 자료의 분류와 특성  (0) 2023.04.14
3. 표본추출 - 가중치 (Weight)  (0) 2023.04.13
1. 통계학이란 ?  (0) 2023.04.11
0. 통계학 공부를 시작하며  (0) 2023.04.11

댓글