본문 바로가기
R과 통계학

1. R을 이용한 자료의 요약 정리

by 에쓰지 2023. 5. 18.
통계학 공부 내용을 R을 이용하여 정리해 보고자 한다.

2023.04.15 - [통계학 공부] - 5. 자료의 요약 정리

 

5. 자료의 요약 정리

통계학은 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해, → 모집단으로부터 일부의 자료(표본)를 수집하고 → 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후 → 표본

pmxsg.tistory.com

 

파이 판매량 자료

pie.txt
0.00MB

(1) 자료 불러오기

pie <- scan("pie.txt", what="character")

  •   234개의 데이터가 있음을 알 수 있다.  

▶ scan( ) 함수

  • R에서 데이터 파일이나 텍스트 파일에서 데이터를 읽을 때 사용
  • 기본적으로 텍스트 파일을 한 줄씩 읽어들이고, 각 줄에서 공백이나 구분자를 기준으로 데이터를 분리하여 벡터로 반환
  • 다양한 데이터 유형을 지원하며, 문자열, 숫자, 논리값 등을 읽을 수 있다.
  • 데이터 파일에서 누락된 값, 잘못된 값, 문자열로 표현된 논리값 등을 처리할 수 있는 다양한 옵션을 제공
scan(file = "", what = double(), n = -1, sep = "", quote = "\"'", dec = ".", 
     na.strings = "NA", flush = FALSE, fill = TRUE, strip.white = FALSE, quiet = FALSE, 
     skip = 0, multi.line = TRUE, comment.char = "#", allowEscapes = FALSE, 
     fileEncoding = "", encoding = "unknown")
     
     
     file : 데이터를 읽어올 파일 이름 또는 URL
     what : 읽어들일 데이터의 유형을 지정
     n : 읽어들일 데이터의 개수를 지정
     sep : 데이터를 구분하는 구분자
     quote : 문자열을 묶는 따옴표 기호
     dec : 소수점 기호를 지정
     na.strings : 누락된 값을 나타내는 문자열

 

(2) 도수분포표

table(pie)

  • 각 범주의 빈도수를 나타낸다.

▶ table( ) 함수

  • 범주형 데이터를 요약하여 표 형태로 출력하는 함수
  • 범주형 데이터란, 명목형 변수 또는 순서형 변수와 같이 카테고리 형태로 분류된 데이터를 말한다.
  • 주어진 데이터 벡터에서 각 범주별 빈도수, 백분율, 상대 빈도 등을 계산할 수 있다.
Sale <- table(pie)
Total <- sum(Sale)
SaleProp <- round(100*Sale/Total,1)
SaleProp

▶ round( ) 함수

  • 숫자를 지정된 소수점 자릿수로 반올림하는 데 사용된다.
  • 음수 값을 사용하면 소수점 왼쪽 자리에서 반올림할 수도 있다.
round(prop.table(Sale)*100,1)

▶ prop.table( ) 함수

  • table() 함수로 백분율로 표기하려면 prop.table() 함수를 함께 사용해야 한다.
  • prop.table() 함수는 주어진 테이블의 셀 값들을 전체 합으로 나누어 백분율로 변환한다.

 

SaleProp <- round(SaleProp,1)
Pie.Freq <- cbind(Sale,SaleProp)
Pie.Freq

  • 빈도수와 백분율을 함께 나타낼 수 있다.

▶ cbind( ) 함수

  • cbind() 함수는 주어진 벡터나 행렬들을 열로 결합하여 새로운 행렬을 만드는 데 사용된다.
  • 열 이름은 기본적으로 각 벡터의 이름이 사용된다.
  • cbind() 함수는 더 많은 벡터나 행렬을 결합할 수 있으며, 열의 개수는 결합된 벡터나 행렬의 개수에 따라 결정된다.

 

(3) 막대 그래프 그리기

barplot(Sale,ylim=c(0,60),space=0.2, main="파이판매량")
abline(h=0)
abline(h=c(20,40,60),lty=2)

▶ barplot( ) 함수

barplot(height, ...)

height는 막대의 높이로 사용될 값입니다. 일반적으로 숫자형 벡터가 주어지며, 
         각 값은 막대의 높이를 나타냅니다.
names.arg: 막대의 이름을 지정하는 문자열 벡터입니다.
col: 막대의 색상을 지정하는 값이나 색상 벡터입니다.
border: 막대의 테두리 색상을 지정하는 값이나 색상 벡터입니다.
main: 그래프의 제목을 지정하는 문자열입니다.
xlab: x 축의 레이블을 지정하는 문자열입니다.
ylab: y 축의 레이블을 지정하는 문자열입니다.
ylim: y 축의 범위를 지정하는 데 사용됩니다. 
space : 막대 사이의 간격을 조정하는 데 사용됩니다

위 그래프의 경우는 table( ) 함수로 만들어진 표에 높이에 해당하는 값과 각 범주가 포함되어 있기 때문에 따로 구분하지 않고 'Sale'만 매개변수로 사용하였습니다.

barplot(Sale,ylim=c(0,60),space=0.2, main="파이판매량",
        col=c("purple","red","yellow","blue","green","brown"))
abline(h=0)
abline(h=c(20,40,60),lty=2)

▶ abline( ) 함수

  • abline() 함수는 R에서 선을 그리는 데 사용됩니다. 주로 그래프에 수직선이나 수평선을 추가하는 데 활용됩니다. 이 함수는 기울기와 절편을 지정하여 선을 그릴 수 있습니다.
  • abline(a, b) 형식으로 사용할 수 있으며, 여기서 a는 y 절편을 나타내고 b는 기울기를 나타냅니다. a와 b의 값을 조정하여 원하는 선을 그릴 수 있습니다.
  • abline(0, 1)은 기울기가 1이고 y 절편이 0인 선을 그립니다. 이는 y = x 그래프로서, x와 y가 같은 지점을 지나는 대각선입니다.
  • abline(h = 0)은 y 축의 0 지점을 가로지르는 수평선을 그립니다.
  • abline(v = 0)은 x 축의 0 지점을 가로지르는 수직선을 그립니다.

 

(4) 파이차트(원도표) 그리기

pie(Sale, main="파이판매량")

▶ pie( ) 함수

pie(x,labels)

x: 원형 차트에 표시할 데이터입니다. 일반적으로 벡터 형태로 입력됩니다.
labels: 원형 차트의 각 섹션에 대한 레이블입니다. 
main: 원형 차트의 제목입니다. 원형 차트 위에 표시됩니다.
col: 원형 차트의 섹션 색상을 지정합니다. 
radius: 원형 차트의 반지름을 지정합니다. 기본값은 1로 설정되어 원형 차트의 크기가 기본 크기입니다.
clockwise: 섹션을 그리는 방향을 지정합니다. 기본값은 FALSE로 설정되어 반시계 방향으로 그려집니다. 
border: 섹션의 테두리 색상을 지정합니다.
labels.arg: 각 섹션에 대한 레이블의 위치를 지정합니다. 
explode: 특정 섹션을 강조하기 위해 해당 섹션을 원에서 분리하는 정도를 지정합니다.

 

pie(SaleProp)
names(SaleProp)
Percent <- c("고구마(11.5%)","딸기(22.2%)","바나나(7.3%)",
             "블루베리(20.1%)","애플(25.2%)","초코(13.7%)")
names(SaleProp) <- Percent
pie(SaleProp, main="파이판매량")

 

댓글