통계학은 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해,
→ 모집단으로부터 일부의 자료(표본)를 수집하고
→ 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후
→ 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문이다.
(1) 자료를 요약 정리해야 하는 이유
자료를 요약 정리하는 이유는 다양하다.
- 자료의 양이 많아지면 분석하기 힘들어지기 때문에 자료를 간결하게 요약 정리하여 쉽게 파악할 수 있다.
- 요약된 자료를 통해 추세나 분포 등의 패턴을 파악할 수 있다.
- 자료의 특성이나 경향성을 파악할 수 있으며, 이를 통해 문제의 원인을 분석하고 개선점을 도출할 수 있다.
- 요약된 자료는 의사결정에 도움을 주고, 효율적인 의사결정을 가능하게 한다.
- 요약된 자료는 다른 사람들과 공유하기 쉬우므로 의사소통에도 용이하다.
(2) 기술통계학 (Descriptive Statistics)
기술통계학(Descriptive Statistics)은 주어진 자료를 표현하거나 요약하여 관찰된 데이터의 특성을 파악하는 통계 분야이다. 이는 데이터의 분포, 중심 경향성, 산포도, 모양 등을 분석하여 데이터의 특징을 요약하고 시각화 하는 과정이다.
기술통계학은 데이터의 특성 파악과 시각화를 통해 인사이트를 얻을 때 사용되며, 추론통계학에서 통계적 가설 검정 및 추정 등의 분석을 수행하기 전에 기본적인 이해를 제공한다.
자료를 요약 정리하는 것은 기술통계학의 주요한 역할 중 하나이다. 기술통계학은 데이터를 요약하고 이를 이해하기 쉽게 표현하는 것을 목적으로 한다. 이를 통해 데이터에서 나타나는 패턴과 특징을 파악하고, 문제를 발견하고 해결하는 데 도움을 준다.
기술통계학에서 사용되는 대표적인 방법으로는 평균(mean), 중앙값(median), 최빈값(mode), 분산(variance), 표준편차(standard deviation), 백분위수(percentile), 도수분포표(frequency table), 히스토그램(histogram), 상자그림(boxplot) 등이 있다. 이러한 방법들을 이용하여 데이터를 효과적으로 요약하고 시각화하여 데이터의 특성을 파악할 수 있다.
자료를 요약 정리하는 방법은 크게 수치를 이용하는 방법과 그래프를 이용하는 방법이 있다.
(3) 수치를 이용하는 방법
앞서 자료의 분류에서 자료의 특성에 따라 분석방법이 다른 것처럼 자료의 특성에 따라 요약 정리하는 방법도 다르다.
일변량 자료와 다변량 자료로 나누어, 각각의 범주형 자료와 수치형 자료로 분류하여 요약정리하는 방법은 아래와 같다.
◈ 일변량 자료 : 하나의 변수만 있는 자료
1. 범주형 자료
- 도수분포표 : 하나의 변수에 대한 자료를 정리하기 위해 사용
- ( 빈도수: 각 범주가 나타나는 빈도를 세는 것 , 백분율: 각 범주가 나타나는 비율을 백분율로 표현한 것 )
- 분포 척도: 데이터의 분포를 파악하기 위한 척도 (대푯값, 퍼진 정도 등)
- 최빈값: 데이터 중 가장 빈번하게 나타나는 값
2. 수치형 자료
- 평균 : 데이터의 총합을 개수로 나눈 값으로, 데이터의 중심 경향성을 파악하는데 사용
- 중앙값 : 전체 데이터를 크기순으로 정렬했을 때 가운데 위치한 값으로, 데이터의 중심 경향성을 파악하는데 사용
- 최빈값 : 데이터 중 가장 빈번하게 나타나는 값으로, 데이터의 분포를 파악하는데 사용
- 분산 : 데이터가 흩어진 정도를 나타내는 값으로, 평균과의 차이를 제곱한 값의 평균
- 표준편차: 데이터가 흩어진 정도를 나타내는 값으로, 분산의 제곱근 값.
- 범위: 최대값과 최소값의 차이를 나타내는 값.
- 분위수 및 사분위수: 데이터를 크기순으로 정렬했을 때 중간 값과 중앙값을 기준으로 나눈 값으로, 데이터 분포를 파악
- 분포 : 자료의 값이 나타나는 경향을 나타냄. 정규분포, 왜도, 첨도,...
◈ 다변량 자료 : 하나의 변수만 있는 자료
1. 범주형 자료
- 분할표 : 두 개 이상의 변수 간의 관계를 나타내기 위해 사용
- ( 빈도수: 각 범주가 나타나는 빈도를 세는 것 , 백분율: 각 범주가 나타나는 비율을 백분율로 표현한 것 )
2. 수치형 자료
- 공분산 : 두 변수 간의 관계를 나타내는 통계량으로, 두 변수가 함께 변하는 정도를 나타냄
- 상관관계 : 두 변수 간의 선형적인 관계를 측정하는 통계량으로, 두 변수 사이의 관계가 어떤 모양으로 나타나는지를 알려준다. -1 에서 1사이의 값을 갖는다.
(4) 그래프를 이용하는 방법
그래프를 이용한 자료정리의 장점은 다음과 같다:
- 시각화를 통해 직관적인 이해: 그래프를 보면 숫자로 표현된 자료보다 쉽게 이해할 수 있다. 시각적으로 자료의 분포, 패턴, 경향성 등을 한눈에 파악할 수 있다.
- 정보 전달의 간결성: 그래프를 사용하면 자료를 간결하게 전달할 수 있다. 긴 표나 글로 표현하기 어려운 정보를 그래프로 보여주면, 정보의 전달이 더욱 간결하고 명확하다.
- 자료 비교 용이성: 그래프는 다양한 자료를 쉽게 비교할 수 있다. 두 개 이상의 그래프를 함께 보면 자료들의 차이점을 더욱 명확하게 파악할 수 있다.
- 인상적인 자료 제시: 적절한 그래프를 사용하면, 특히 발표나 보고서에서 자료를 더욱 인상적으로 제시할 수 있습니다. 이는 자료의 효과적인 전달과 기억에 큰 도움이 된다.
- 자료 분석의 도움: 그래프를 보면, 자료를 보다 체계적으로 분석하고 이해할 수 있다. 자료를 시각화 하면, 놓치기 쉬운 패턴이나 경향성을 파악할 수 있다.
대부분 사람들은 숫자나 수식으로 설명할 때보다 그림과 같은 시각적 방법을 이용하면 이해를 잘 하는 경향이 있다. 따라서 ,통계자료를 직관적인 설명으로 그림(그래프 등)이 유용하다. 다만, 자료의 특성에 따라 사용하는 그래프를 달리해야 한다.
◈ 선 그래프
시계열 자료 등 연속적인 자료를 표현할 때 효과적이다.
☞ 주가 변동 그래프
◈ 막대 그래프 (Bar Chart)
범주자료를 비교할 때 유용하게 쓰인다.
☞ 파이판매량 비교
◈ 원도표 (Pie Chart)
각 범주가 전체 데이터에서 차지하는 비율을 파악하고자 할 때 유용하다.
☞ 파이별 비율
◈ 점도표 (dot plot)
연속형 변수의 분포를 시각화할 때 사용되며, 데이터의 분산과 중심 경향을 쉽게 파악할 수 있는 장점이 있다. 데이터가 적지 않은 경우에 적합하다.
◈ 히스토그램(Histogram)
히스토그램은 수치자료 특히 연속자료의 분포형태를 표시한다.
- 계급의 상대도수를 사각형의 면적으로 표시 ⇒ 전체 면적 = 1
- 높이 = 상대도수 / 계급구간길이 = 밀도(density)
◈ 줄기-잎 그림 (stem-and-leaf plot)
관측값의 정보를 그대로 간직하면서 자료의 분포를 알려주는 그림이다.
◈ 상자그림 (Box Plot)
아래부터 최소값, 1분위수,2분위수,3분위수, 최대값을 표시한다.
R Code
2023.05.18 - [R과 통계학] - 1. R을 이용한 자료의 요약 정리
2023.05.27 - [R과 통계학] - 2. R을 이용한 자료의 요약 정리 II
'통계학 공부' 카테고리의 다른 글
7. 수치 자료의 중심 - 평균, 중앙값, 최빈값 (0) | 2023.04.17 |
---|---|
6. 데이터 시각화의 중요성을 알려주는 사례 (1) | 2023.04.16 |
4. 자료의 분류와 특성 (0) | 2023.04.14 |
3. 표본추출 - 가중치 (Weight) (0) | 2023.04.13 |
2. 표본추출 (Sampling) (0) | 2023.04.12 |
댓글