본문 바로가기
통계학 공부

4. 자료의 분류와 특성

by 에쓰지 2023. 4. 14.

(1)  자료의 정의

   자료 ( Data )는 문자, 숫자, 소리, 그림, 영상, 단어 등의 형태로된 의미 단위이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 된다. 자료(data)와 정보(information)는 서로 교환되어 사용하는 경우가 많다. 하지만 자료와 정보의 의미는 다르다

자료는 숫자, 문자, 기호 등으로 이루어진 형태를 가질 수 있으며, 연속적인 값인 경우 연속 자료(continuous data), 이산적인 값인 경우 이산 자료(discrete data)로 구분된다. 이러한 자료를 수집하고 분석함으로써 문제를 해결하고 결론을 도출하는데 사용된다.

모집단은 큰 데이터 집합이라고도 말할 수 있다. 따라서 표본은 모집단으로부터 얻은 데이터의 부분집합을 의미한다.

즉 데이터는 가장 기본적인 개념으로서 세포의 역할을 한다고 볼 수 있다. 자료 혹은 데이터라 불리우는 이것이 통계학의 가장 기초라 볼 수 있다.

 (2)  자료의 분류

통계학에서 자료를 분류하는 이유는 자료의 특성에 따라 적용할 있는 통계분석 방법이 다르기 때문이다. 각각의 자료 유형은 고유한 특성을 가지며, 통계분석 방법 또한 이에 따라 달라진다. 분석하고자 하는 자료가 분석방법에서 가정한 조건을 얼마나 만족하는지에 따라 어떤 분석방법을 지를 결정하게 된다.

 따라서 자료의 속성에 따른 분류 필요하다. 하지만,  자료의 분류는 절대적인 것은 아니다. 자료는 가지 유형에 속해있는 것이 아니라 여러 유형을 한꺼번에 가지고 있는 경우도 많다.

    ◈  변수에 따른 자료의 유형

        변수(Variable) 주어진 상황에 따라 다른 값을 가지는 측정치라고 정의할 있다.

        1. 일변량 자료(univariate data)  : 하나의 변수만 있는 자료

           자료가 단 하나의 변수로 이루어져 있으며, 예를 들어 하나의 사람의 키, 혈압, 나이 등이 있을 때 각각의 변수를       따로 분석하는 것이다. 이러한 경우 자료를 요약하고 분석하는 방법으로는 기술통계학이 사용된다.

         2. 다변량 자료(multivariate data) : 여러 개의 변수로 이루어진 자료

             둘 이상의 변수가 서로 관련되어 있는 경우를 말한다. 예를 들어 여러 사람의 , 체중, 나이 등을 동시에 분석하는 것이다. 다변량 자료를 요약하고 분석하는 방법으로는 상관관계, 회귀분석 등이 사용된다. 주요관심사는  변수들 관련성 유무이다.

  ◈ 분석목적의 관점에서 자료의 유형

          1.  범주형 자료

     변수(Variable) 주어진 상황에 따라 다른 값을 가지는 측정치라고 정의할 있다. 예를 들면 동전을 던져서 앞면이 나온 상황이라면 1 값을 가진다고 하고 뒷면이 나오는 경우 0 값을 가지는 변수를 생각할 있다

       범주형 변수(categorical variable) 2 이상의 범주(category) 값으로 가지는 변수를 의미하며 다음과 같은 경우를 범주형변수로 정의할 있다

  •  순서가 없는 범주 : 국적, 성별
  •  순서가 있는 범주 : 군인계급 (이병<일병<상병<병장)
  •  일련의 그룹으로 묶인 숫자들 : BMI 기준 비만 측도

      ① 명목(형) 자료 (nominal data) : 순서가 없는 범주

  •        숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시
  •        예 : 혈액형, 성별 (주민번호 : 성별 표시 1,3 남자, 2,4 여자)

      ②  순서자료(ordinal data) :  순서가 있는 범주  

  •        범주의 순서가 상대 비교 가능         
  •        예 : 비만도(저체중,정상,과체중, 비만, 고도비만), 선호도(매우좋음,좋음,보통,나쁨,매우나쁨), 학점 등
  •        범주화를 통해 수치자료를 순서자료로 바꾸기도 함.

 

    2. 수치형 자료

        ①  이산자료(discrete data) 

  •        셀 수 있는 형태의 자료 (countable data) 
  •         값이 정수인 경우 
  •        예 : 충치 수, 교통사고 건수, 자녀의 수 
  •        범주형 자료의 발생빈도

        ②  연속자료(continuous data)

  •         연속적인 속성을 가지는 자료
  •         값이 실수인 경우
  •         예 : 신장, 체중, 시간
  •         연속자료는 대부분 이산화를 통해 절사된 형태로 표시

 자료 유형에 따라 분석방법은 달리 사용된다.

범주형 자료는 주로 빈도수나 백분율로 요약하여 분석한다. 명목형 자료는 범주의 빈도수와 백분율을 구하며, 순서형 자료는 범주의 빈도수와 백분율뿐 아니라 상대적인 위치 개념도 함께 고려하여 분석한다. 이때, 명목형 자료와 순서형 자료의 빈도수나 백분율 차이는 매우 작기 때문에 카이제곱검정이나 범주형 자료의 평균 차이를 검정하는 분석방법 등이 주로 사용된다.

수치형 자료는 기술통계량(평균, 분산, 표준편차, 중앙값 ) 이용하여 요약하고, 히스토그램이나 상자그림과 같은 그래프로 시각화하여 분석한다. 또한, 수치형 자료의 평균 차이 검정, 분산 분석, 회귀분석 등의 분석방법이 사용된다.

 

 변수의 종류에 따른 자료 분류

    1. 양적(quantitative) 변수 : 나이, 가족의 , 가구소득 양적자료

    2.  질적(qualitative) 변수 : 혼인상태, 취업여부. 질적자료 

                                               일반적으로 질적 자료도 통계처리 목적상 수치로 코딩하여 사용함.

    3. 이산변수 (discrete) : 가족의 수처럼 2,3,4,...등의 이산적인 값만을 취함. 이산자료

    4. 연속변수(Continuous) : 나이, 가구소득처럼 연속인 값을 취함. 연속자료

  •          컴퓨터를 통해 숫자를 표현하면 이론상 언제나 이산적일 수밖에 없음.
  •           현실적으로는 어떠한 연속변수도 이산적으로 근사 시켜 표현할 수밖에 없음.
  •           이때 그 근사의 정확도를 얼마로 할 것인가가 문제의 본질임.

 

◈ 척도의 종류에 따른 자료분류

   1. 명목척도 (nominal scale) 

  •         척도의 명칭만 의미있음.
  •         (예) 결혼 상태에 대한 코드 : { 미혼=1, 기혼=2, 이혼=3, 사별=4}

    2. 순서척도 (ordinal scale)

  •          명칭 및 순서가 의미를 지님.
  •          (예) 성적등급 - { poor=1, fair=2, good=3, very good=4, excellent=5}

    3.  간격척도 (interval scale) 

  •         명칭, 순서 및 간격이 의미를 지님.
  •         (예) 온도 

     4. 비율척도 (ratio scale)

  •          명칭, 순서, 간격 및 배율 모두 의미를 지님.
  •          이들 척도의 경우 이른바 “절대적 원점(absolute zero point)”이 정의됨.
  •         (예) 키, 몸무게, 재산 등

 

◈  시점 관점에서 분류한 자료의 유형

   1.  횡단면 자료 ( cross-sectional data)

  •  한 시점에서 여러 개체를 관측한 자료.
  • 예 ) 경제활동 인구조사 , 대통령 국정 운영 지지도 

   2.  시계열 자료 (time-series data) 

  •  한 개체를 여러 시점에 걸쳐 관측한 자료. 
  •  예 ) 1970년 ~2020년 1인당 GDP 변화, 10년간 주가 변동 추이 

    3. 패널 자료 (panel data) 또는 종적 자료 (longitudinal data) 

  •  횡단면과 시계열의 특성을 결합하여 여러 개체를 여러 시점에 걸쳐 관측한 자료. 
  •  국내외 각종 패널자료들이 많이 쌓이고 있음. 정보량이 많음. 
  • 예)   신용카드 보유자의 월별 업종별 지출액 패널 자료 
  •        통신회사(전화, 인터넷)가 보유한 개인별 통신 사용자료 
  •         전기 등 각종 공과금의 월별 지출액 자료 
  •         은행의 기업/가계별 대출 및 사후 관리 자료 
  •         기업의 신용등급 변화 자료

 

 

(3) 데이터가 표본으로 가는 단계에서 데이터가 가져야  특성

 

                                  ▣ 귀납적 추론의 4단계 : 데이터 표본 연구모집단 목적모집단

 

데이터가 표본으로 가는 단계에서 데이터가 가져야 특성은 다음과 같다. 

     1. 데이터 자체의 변동이 작고 반복 가능하다. 

        알고자 하는 항목에 대해 어떤 편의도 없이 정확히 측정하고 있다. 

     2. 표본이 연구모집단의 대표성을 가질 경우 내적타당성을 지닌다고 한다.

         즉 임의추출과 같은 방법으로 표본을 뽑아서 연구 모집단의 대표성을 유지하도록 한다. 

     3. 연구모집단과 목적모집단이 정확히 일치하지 않을 경우 연구 모집단의 결과를 목적모집단으로 확장할 있는 경우 외적타당성을 가지고 있다고 한다.

'통계학 공부' 카테고리의 다른 글

6. 데이터 시각화의 중요성을 알려주는 사례  (1) 2023.04.16
5. 자료의 요약 정리  (0) 2023.04.15
3. 표본추출 - 가중치 (Weight)  (0) 2023.04.13
2. 표본추출 (Sampling)  (0) 2023.04.12
1. 통계학이란 ?  (0) 2023.04.11

댓글