본문 바로가기

분류 전체보기92

12. 확률과 통계 (1) 확률과 통계 확률은 불확실성을 다루기 위한 수학적 도구이고, 통계는 데이터를 수집, 요약, 분석하여 패턴을 파악하는 학문이라 할 수 있다. 이러한 이유로 확률과 통계는 밀접한 관계를 가지고 있다. 먼저, 확률은 통계의 기초라 할 수 있다. 데이터를 분석하고 추론하기 위해서는 데이터가 어떤 분포를 따르는지, 그 분포의 모수는 무엇인지 등을 알아야 한다. 이때 확률 분포를 사용하여 데이터를 모델링하고, 모수를 추정하게 된다. 반대로, 통계는 확률을 응용하는 분야라 할 수 있다. 확률 분포를 사용하여 데이터를 모델링하고 모수를 추정한 후, 이를 토대로 가설 검정, 신뢰 구간 추정 등을 수행한다. 이러한 통계적 방법을 통해 데이터의 패턴과 관련된 문제를 해결할 수 있다. 따라서 확률과 통계는 각각 독립적.. 2023. 4. 22.
11. 다변량 자료의 기술 통계 - 공분산, 상관관계 & 산점도 일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표 (빈도수, 백분율) ※ 다변량 변수(자료) 형태 ◈ 분석목적 비교 : X에 따라 Y에 차이가 있는가? 관계 : X와 Y가 관련이 있는가? X가 Y에 영향을 주는가? 분류 : X에 따라 Y를 분류할 수 있는가? X, Y 가 비슷한 것끼리 묶을 수 있는가? (1) 산점도(scatter plot) 다변량 자료의 분석목적이 "관계"에 대한 분석도구로 가장 많이 사용되는 것은 산점도와 상관계수이다. 두 변수의 값을 각각 x축과 y축을 이용하여 표시나 그림을 산점도( scatter plot)이라고 .. 2023. 4. 21.
10. 범주형 자료 요약 정리 - 도수분포표 & 분할표 일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표 (빈도수, 백분율) (1) 범주형 자료란 범주형 자료는 각각의 데이터가 명목상의 범주(category) 또는 서열상의 범주(ordinal) 중 하나에 속하는 자료를 말한다. 명목형 자료는 분류를 목적으로 하며, 서열형 자료는 순서를 가지고 있는 범주형 자료이다. 예를 들어, 성별, 혈액형, 종교, 결혼 여부 등은 명목형 자료이고, 학년, 선호도 등은 서열형 자료입니다. 범주형 자료를 정리할 때 변수가 하나일 때는 도수분포표를 이용하고 변수가 2개 이상일 때 분할표를 사용한다. (2) 도수.. 2023. 4. 20.
9. 수치자료의 형태 - 정규분포, 왜도, 첨도 일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표 (빈도수, 백분율) (1) 분포의 형태 분포란 자료가 어떤 값들을 가지고 나타나는지를 보여주는 방법이다. 자료 분포의 형태를 보면 보다 많은 정보를 얻을 수 있다. 분포 형태를 알아보는 것이 중요하다. 많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정한다. 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받는다. 자료의 분포 형태에 대한 측도를 통하여 자료가 모집단의 가정을 만족하는지에 확인한다. (2) 분포의 형태 예시 .. 2023. 4. 19.
8. 수치자료의 산포 - 분산, 표준편차, 분위수 일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표 (빈도수, 백분율) (1) 산포 (dispersion, 퍼짐) 산포란 자료들이 얼마나 퍼져 있는지를 나타내는 측도이다. 중심위치와 더불어 일변량 수치형 자료 요약의 한 축이다. 데이터의 중앙을 나타내는 대표값과 더불어 데이터가 얼마나 퍼져 있는지 여부를 제시하는 대표값은 자료의 요약에 필수적인 요소이다. 대표적인 퍼짐을 나타내는 통계량은 다음과 같다. 범위 : 최대값 – 최소값 IQR : 𝑄3 - 𝑄1, 여기서 𝑄1과 𝑄3는 1사분위수(하위 50%데이터의 중앙값) 과 3사분위수(상위 50.. 2023. 4. 18.
7. 수치 자료의 중심 - 평균, 중앙값, 최빈값 일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표 (빈도수, 백분율) (1) 일변량 자료에 대한 수치적 기술통계 위 자료는 신체검사 결과를 나타내고 있는 자료이다. 위 자료에서 일변량 자료란 성, 연령, 신장, 체중 등 각 변수 한 항목을 말한다. 예를 들어 신장에 대한 평균을 구할 수 있지만, 신장과 체중을 합친 두 변수의 평균을 구하는 것은 오히려 혼선을 준다. 다변량 자료에 대한 요약은 공분산과 상관계수 등을 구할 수 있다. 위 자료에서 성, 비만도, 혈액형은 범주자료이고 자료요약은 도수분포표로 할 수 있다. 따라서 일변량 자료에 .. 2023. 4. 17.