통계학 공부 내용을 R을 이용하여 정리해 보고자 한다.
2023.04.18 - [통계학 공부] - 8. 수치자료의 산포 - 분산, 표준편차, 분위수
8. 수치자료의 산포 - 분산, 표준편차, 분위수
일변량 자료 요약 (1) 수치형 - 평균,중앙값,최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표
pmxsg.tistory.com
◈ 대학 정보공시 취업률 자료
(1) 자료 불러오기
Job <- scan()
55.6 83.3 43.4 58.1 31.6 55.6 60.7 64.6 73.3 55.6 64.3
52.8 22.7 46.3 71.4 53.8 64.5 67.9 71.4 80.0 59.5 40.5
77.1 58.6 65.4 52.4 66.7 91.3 41.3 72.1 61.9 78.4 63.6
41.0 65.2 81.3 54.8 19.6 50.0 53.1 41.2 56.5
(2) 범위 (Range)
- 자료 중 가장 큰 값과 작은 값의 차이
- 범위 = 최대값 - 최소값
- 최대값과 최소값에만 영향을 받기 때문에 자료 전체의 퍼져 있는 정도를 파악할 수 없다.
▶ range( ) 함수 : 주어진 데이터의 최댓값과 최솟값을 반환하는 함수
range(Job)
▶ diff( ) 함수 : 주어진 데이터의 차이를 나타내는 함수
ends <- range(Job)
diff(ends)
▶ max( ) : 최댓값을 반환, min( ) : 최솟값을 반환
max(Job)-min(Job)
(3) 사분위(간) 범위 (Interquartile - Range)
- 사분위수 (quartile) : 자료를 동일한 비율로 4등분 할 때의 세 위치
- 자료를 오름차순으로 정렬했을 때,
- 25% 지점 : 제 1사분위수
- 50% 지점 : 제 2사분위수 = 표본중앙값
- 75% 지점 : 제 3사분위수
- 사분위(간)범위는 제 3사분위수와 제1사분위수의 차이 : IQR = Q3 - Q1
▶ quantile( ) : 사분위수를 반환하는 함수
quantile(Job)
quantile(Job,probs=c(0.25,0.5, 0.75))
▶ IQR( ) : 제 3사분위수와 제1사분위수의 차이를 반환
IQR(Job)
Q <- quantile(Job,probs=c(0.25,0.5, 0.75))
Q[3]-Q[1]
▶ 상자그림 boxplot
- 사분위수 시각화에 사용되는 그래프
- 자료의 주요위치 파악과 이상점 검출 등에 사용되는 그림이다.
boxplot(x, # 데이터
main = "Boxplot Example", # 그래프 제목
xlab = "X Values", # x축 레이블
ylab = "Y Values", # y축 레이블
col = "skyblue", # 상자 색상
notch = TRUE, # 상자의 홈 생성
horizontal = TRUE, # 가로 방향 그래프
outline = FALSE # 이상치 표시하지 않음
)
boxplot(Job)
boxplot(Job,horizontal=TRUE,xlab="취업률",notch=TRUE,height=0.5,col="skyblue")
(4) 분산과 표준편차
▶ var( ) : 분산을 반환하는 함수
var(Job)
▶ sd( ) : 표준편차를 반환하는 함수
sd(Job)
(5) 표준화
- 표준화란 기준점을 동일하게 만들어 자료들을 쉽게 비교할 수 있도록 만드는 과정이다.
▶ scale( ) 함수 : 주어진 데이터를 표준화된 형태로 변환하여 반환
- 반환된 결과는 원래 데이터와 동일한 구조(벡터 또는 행렬)를 가지며, 각 열의 평균은 0, 표준편차는 1로 조정된다.
scale(Job)
- 평균 0, 분산 1
scaled_data <- scale(Job)
round(mean(scaled_data),1)
var(scaled_data)
- 표준화하는 다른 방법
xbar <- mean(Job)
s <- sd(Job)
z <-(Job-xbar)/s
(6) 변동계수(coefficient of variation)
- 측정단위가 서로 다른 자료를 비교하고자 할 때 사용한다.
- 즉, 표준편차가 평균에 영향을 받는 경우를 말한다.
sd(Job)/mean(Job)
'R과 통계학' 카테고리의 다른 글
3. R을 이용한 수치자료의 중심 정리 - 평균,중앙값,최빈값 (1) | 2023.05.28 |
---|---|
2. R을 이용한 자료의 요약 정리 II (0) | 2023.05.27 |
1. R을 이용한 자료의 요약 정리 (0) | 2023.05.18 |
댓글