본문 바로가기
R과 통계학

4. R을 이용한 수치자료의 산포 정리 - 분산, 표준편차,분위수

by 에쓰지 2023. 5. 29.
통계학 공부 내용을 R을 이용하여 정리해 보고자 한다.

2023.04.18 - [통계학 공부] - 8. 수치자료의 산포 - 분산, 표준편차, 분위수

 

8. 수치자료의 산포 - 분산, 표준편차, 분위수

일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표

pmxsg.tistory.com

 

◈ 대학 정보공시 취업률 자료

(1) 자료 불러오기

Job <- scan()
55.6 83.3 43.4 58.1 31.6 55.6 60.7 64.6 73.3 55.6 64.3
52.8 22.7 46.3 71.4 53.8 64.5 67.9 71.4 80.0 59.5 40.5
77.1 58.6 65.4 52.4 66.7 91.3 41.3 72.1 61.9 78.4 63.6
41.0 65.2 81.3 54.8 19.6 50.0 53.1 41.2 56.5

 

(2) 범위 (Range)

  • 자료 중 가장 큰 값과 작은 값의 차이
  • 범위 = 최대값 - 최소값
  • 최대값과 최소값에만 영향을 받기 때문에 자료 전체의 퍼져 있는 정도를 파악할 수 없다.

▶ range( ) 함수 : 주어진 데이터의 최댓값과 최솟값을 반환하는 함수

range(Job)

▶ diff( ) 함수 : 주어진 데이터의 차이를 나타내는 함수

ends <- range(Job)
diff(ends)

▶ max( ) : 최댓값을 반환, min( ) : 최솟값을 반환

max(Job)-min(Job)

 

(3) 사분위() 범위 (Interquartile - Range)

  • 사분위수 (quartile) : 자료를 동일한 비율로 4등분 할 때의 세 위치
  • 자료를 오름차순으로 정렬했을 때,
  • 25% 지점 : 제 1사분위수
  • 50% 지점 : 제 2사분위수 = 표본중앙값
  • 75% 지점 : 제 3사분위수
  • 사분위(간)범위는 제 3사분위수와 제1사분위수의 차이 :  IQR = Q3 - Q1

▶ quantile( ) : 사분위수를 반환하는 함수

quantile(Job)

quantile(Job,probs=c(0.25,0.5, 0.75))

▶ IQR( ) : 제 3사분위수와 제1사분위수의 차이를 반환

IQR(Job)

Q <- quantile(Job,probs=c(0.25,0.5, 0.75))
Q[3]-Q[1]

▶ 상자그림 boxplot

  • 사분위수 시각화에 사용되는 그래프
  • 자료의 주요위치 파악과 이상점 검출 등에 사용되는 그림이다.
boxplot(x,                   # 데이터
  main = "Boxplot Example",  # 그래프 제목
  xlab = "X Values",         # x축 레이블
  ylab = "Y Values",         # y축 레이블
  col = "skyblue",           # 상자 색상
  notch = TRUE,              # 상자의 홈 생성
  horizontal = TRUE,         # 가로 방향 그래프
  outline = FALSE            # 이상치 표시하지 않음
)
boxplot(Job)

boxplot(Job,horizontal=TRUE,xlab="취업률",notch=TRUE,height=0.5,col="skyblue")

(4) 분산과 표준편차 

▶ var( ) : 분산을 반환하는 함수

var(Job)

▶ sd( ) : 표준편차를 반환하는 함수

sd(Job)

(5) 표준화

  • 표준화란 기준점을 동일하게 만들어 자료들을 쉽게 비교할 수 있도록 만드는 과정이다.

▶ scale( ) 함수 : 주어진 데이터를 표준화된 형태로 변환하여 반환

  • 반환된 결과는 원래 데이터와 동일한 구조(벡터 또는 행렬)를 가지며, 각 열의 평균은 0, 표준편차는 1로 조정된다.

scale(Job)

  • 평균 0, 분산 1 
scaled_data <- scale(Job)
round(mean(scaled_data),1)
var(scaled_data)

  • 표준화하는 다른 방법
xbar <- mean(Job)
s <- sd(Job)
z <-(Job-xbar)/s

 

(6) 변동계수(coefficient of variation)

  • 측정단위가 서로 다른 자료를 비교하고자 할 때 사용한다.
  • 즉, 표준편차가 평균에 영향을 받는 경우를 말한다.

sd(Job)/mean(Job)

 

댓글