본문 바로가기

통계학 공부39

8. 수치자료의 산포 - 분산, 표준편차, 분위수 일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표 (빈도수, 백분율) (1) 산포 (dispersion, 퍼짐) 산포란 자료들이 얼마나 퍼져 있는지를 나타내는 측도이다. 중심위치와 더불어 일변량 수치형 자료 요약의 한 축이다. 데이터의 중앙을 나타내는 대표값과 더불어 데이터가 얼마나 퍼져 있는지 여부를 제시하는 대표값은 자료의 요약에 필수적인 요소이다. 대표적인 퍼짐을 나타내는 통계량은 다음과 같다. 범위 : 최대값 – 최소값 IQR : 𝑄3 - 𝑄1, 여기서 𝑄1과 𝑄3는 1사분위수(하위 50%데이터의 중앙값) 과 3사분위수(상위 50.. 2023. 4. 18.
7. 수치 자료의 중심 - 평균, 중앙값, 최빈값 일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표 (빈도수, 백분율) (1) 일변량 자료에 대한 수치적 기술통계 위 자료는 신체검사 결과를 나타내고 있는 자료이다. 위 자료에서 일변량 자료란 성, 연령, 신장, 체중 등 각 변수 한 항목을 말한다. 예를 들어 신장에 대한 평균을 구할 수 있지만, 신장과 체중을 합친 두 변수의 평균을 구하는 것은 오히려 혼선을 준다. 다변량 자료에 대한 요약은 공분산과 상관계수 등을 구할 수 있다. 위 자료에서 성, 비만도, 혈액형은 범주자료이고 자료요약은 도수분포표로 할 수 있다. 따라서 일변량 자료에 .. 2023. 4. 17.
6. 데이터 시각화의 중요성을 알려주는 사례 (1) 데이터 시각화가 중요한 이유 빅 데이터 ( Big Data ) 란 디지털 환경에서 발생하는 대량의 모든 데이터를 말한다. 요즘은 매일 2조 5천억 바이트의 빅 데이터가 생성된다고 한다. 페이스북에서는 하루 300페타바이트 이상의 정보가 저장되고 공유된다고 한다. 또한 전 세계에서 하루에 500억 건 이상의 트윗 사용하고 있다고도 한다. 이것이 어느 정도 크기인지 가늠조차 안 된다. 뉴욕타임즈가 하루에 싣는 정보의 양은 17세기 영국의 평범한 사람이 평생 소비하는 정보의 양과 비슷하다( Wurman, S.A.(1987). Information Anxiety. New York : Doubleday) 는 말이 1987년도에 나온 얘기라는데, 지금의 정보양을 과연 어느 정도일까 ? Google 검색 및 .. 2023. 4. 16.
5. 자료의 요약 정리 통계학은 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해, → 모집단으로부터 일부의 자료(표본)를 수집하고 → 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후 → 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문이다. (1) 자료를 요약 정리해야 하는 이유 자료를 요약 정리하는 이유는 다양하다. 자료의 양이 많아지면 분석하기 힘들어지기 때문에 자료를 간결하게 요약 정리하여 쉽게 파악할 수 있다. 요약된 자료를 통해 추세나 분포 등의 패턴을 파악할 수 있다. 자료의 특성이나 경향성을 파악할 수 있으며, 이를 통해 문제의 원인을 분석하고 개선점을 도출할 수 있다. 요약된 자료는 의사결정에 도움을 주고, 효율적인 의사결정을 가능하게 한다. 요약된 자료는 다.. 2023. 4. 15.
4. 자료의 분류와 특성 (1) 자료의 정의 자료 ( Data )는 문자, 숫자, 소리, 그림, 영상, 단어 등의 형태로된 의미 단위이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 된다. 자료(data)와 정보(information)는 서로 교환되어 사용하는 경우가 많다. 하지만 자료와 정보의 의미는 다르다. 자료는 숫자, 문자, 기호 등으로 이루어진 형태를 가질 수 있으며, 연속적인 값인 경우 연속 자료(continuous data), 이산적인 값인 경우 이산 자료(discrete data)로 구분된다. 이러한 자료를 수집하고 분석함으로써 문제를 해결하고 결론을 도출하는데 사용된다. 모집단은 큰 데이터 집합이라고도 말할 수 있다. 따라서 표본은 모집단으로부터 얻은 데이터의 부분집합을 .. 2023. 4. 14.
3. 표본추출 - 가중치 (Weight) (1) 가중치 (Weight)의 의미 표본추출에서 가중치는 표본의 각 관측치에 대한 중요도를 나타내는 값이다. 모집단에서 추출한 표본이 모집단을 대표하기 위해서는 표본이 모집단의 다양한 특성을 반영해야 한다. 하지만 실제로는 모든 개체를 표본으로 추출하는 것이 어려운 경우가 많다. 이럴 때 가중치를 사용하여 특정 개체나 집단의 중요도를 높여서 표본에 반영할 수 있다. 예를 들어, 인구 조사를 할 때 여성과 남성의 비율이 2:3인 인구에서 표본을 추출한다면, 표본에서 여성과 남성이 각각 동일한 비율로 추출되지 않을 수 있다. 이때, 여성과 남성에 대한 가중치를 설정하여 표본에서 여성과 남성이 적절한 비율로 추출되도록 할 수 있다. 가중치를 사용하면 표본의 편향성을 줄이고 통계 분석 결과의 정확성을 높일 수.. 2023. 4. 13.