본문 바로가기
통계학 공부

11. 다변량 자료의 기술 통계 - 공분산, 상관관계 & 산점도

by 에쓰지 2023. 4. 21.
일변량 자료 요약
 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등
 (2) 범주형 - 도수분포표 (빈도수, 백분율)

다변량 자료 요약
 (1) 수치형 - 공분산, 상관관계
 (2) 범주형 - 분할표 (빈도수, 백분율)

   ※ 다변량 변수(자료) 형태

      ◈ 분석목적

  • 비교 : X에 따라 Y에 차이가 있는가?
  • 관계 : X와 Y가 관련이 있는가? X가 Y에 영향을 주는가?
  • 분류 : X에 따라 Y를 분류할 수 있는가? X, Y 가 비슷한 것끼리 묶을 수 있는가?

(1) 산점도(scatter plot)

다변량 자료의 분석목적이 "관계"에 대한 분석도구로 가장 많이 사용되는 것은 산점도와 상관계수이다.

두 변수의 값을 각각 x축과 y축을 이용하여 표시나 그림을 산점도( scatter plot)이라고 한다.

▶ 자료구조와 분석목적

  • 구조 : 수치자료 + 수치자료 (+..+수치자료)
  • 각각의 관측개체에 대해 두 변수의 값은 순서쌍 (x,y).. 으로 표시
  • 목적 : 수치 변수들 간의 관계를 유도 ⇒ 순서쌍 자료를 2차원 평면상에 점으로 표시한 그림

◈ 예제 : 올림픽 100미터 우승기록

100m.csv
0.00MB

 

(2) 상관계수(coefficient of correlation)와 공분산(covariance)

산점도와 더불어 두 변수 사이의 관계를 하나의 요약 통계량으로 나타낼 수 있을까?

라는 질문에 대한 답은 " 상관계수 " 이다.

상관계수는 두 수치변수 간에 직선관계가 어느 정도인지를 나타내는 통계값이다.

   상관계수의 필요성

  •  위의 두 산점도는 가로든 세로든 중심과 퍼진 정도가 동일하지만 왼쪽 그림이 더 강한 선형관계를 보임
  •  두 변수간 선형관계의 방향과 강도가 얼마나 되는지 측정할 필요성 대두
  •  상관계수는 두 변수간 선형관계의 방향과 강도 측정

   ▶ 양과 음의 관계를 가지는 산점도

  • 위치에 따라 직선관계에는 변화가 없음 ⇒ ( x , y ) 평균을 중심으로
  • 좌 그림 : ( x , y ) 평균을 중심으로 1과 3사분면에 자료가 많고 길게 분포  ⇒ 양수로 표시
  • 우 그림 : ( x , y ) 평균을 중심으로 2과 4사분면에 자료가 많고 길게 분포  ⇒ 음수로 표시
  • ( x , y )평균에서 멀어질수록 직선관계가 명확해짐  ⇒ ( xi -x ) ( yi -y )

 

(3) 표본 공분산 (sample covariance)

공분산(covariance)은 두 변수 사이의 상관 관계를 나타내는 통계량이다. 두 변수 간에 얼마나 같이 변화하는지를 나타낸다. 공분산이 양수이면 두 변수는 같은 방향으로 움직이며, 음수이면 서로 반대 방향으로 움직인다. 공분산이 0이면 두 변수는 서로 독립이다.

  • 왼쪽 그림 : 양의 기울기인 선분에 자료가 모여 있음 ⇒ c > 0
  • 오른쪽 그림 : 음의 기울기인 선분에 자료가 모여 있음 ⇒ c < 0

위의 식에서 y x로 바꾸면 일변량 분산의 공식과 같다.

  ▶ 표본공분산의 간편식

  ◈ 예제 : 올림픽 100미터 우승기록

      남자기록의 공분산

 

 (4) 표본 상관 계수(coefficient of correlation)

 

상관관계(correlation)란 두 변수 간에 어떤 선형적인 관계가 있는지를 나타내는 척도이다. 두 변수 중 하나의 값이 변할 때 다른 변수도 일정하게 변화한다면, 이들은 서로 상관관계가 있다고 말할 수 있다. 상관관계는 -1부터 1까지의 값을 가지며, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 나타낸다. 0에 가까울수록 두 변수 간에 상관관계가 거의 없다는 것을 의미한다.

표본 공분산의 문제점은 측정 단위에 영향을 받기 때문에 그 값 자체로 선형관계의 정도를 알 수는 없다는 점이다.

표준화된 자료의 표본공분산

 

▶ 표본상관계수의 간편식 유도

 

▶ 피어슨 상관계수(Pearsons correlation coefficient)라고도 불린다피어슨 상관계수는 -1 1 사이의 값을 나타내면 상관계수의 절대값이 1에 가까울수록 두 변수들이 강한 직선관계가 있음을 의미한다.

 피어슨 상관계수의 한계

⇒ 위 그림은 모두 다른 모양이지만 같은 상관계수를 가진다.

⇒ 비선형일 때는 상관계수가 0 으로 나타난다.

⇒ 이탈값(outlier)이 존재하는 경우나 두 변수간 관계가 비선형인 경우 상관계수는 유용하지 않다.

따라서, 선형일 때만 상관관계/공분산이 유용하며 상관계수가 측정할 수 있는 것은 선형관계일 때만 가능하다.

 

상관관계 사용 시 주의할 점

상관계수는 두 변수 간에 직선관계가 있는지를 나타낼 뿐 인과관계를 나타내는 것은 아니다.

    • 예시 : 휴대전화 보급률과 기대수명에 대한 상관계수는 매우 높은 양의 상관관계를 가진다

                  → 기대수명을 늘리기 위해 휴대전화 보급을 늘려야 한다 ???

  • 잠복변수(lurking variable) : 두 변수에 영향을 주는 변수 

                  → 연도에 따라 보급률 증가, 기대수명 증가   ⇒ 허위상관 (spurious correlation)

                 → 보급률과 기대수명에서 연도의 영향력을 제거하고 상관관계유도해야 한다.

◈ 예제 : 올림픽 100미터 우승기록

       상관관계

⇒ 우승연도와 우승기록과는 확실한 음의 상관관계가 있다.

댓글