통계학 공부 내용을 R을 이용하여 정리해 보고자 한다.
2023.04.15 - [통계학 공부] - 5. 자료의 요약 정리
◈ 파이 판매량 자료
(1) 자료 불러오기
pie <- scan("pie.txt", what="character")
- 234개의 데이터가 있음을 알 수 있다.
▶ scan( ) 함수
- R에서 데이터 파일이나 텍스트 파일에서 데이터를 읽을 때 사용
- 기본적으로 텍스트 파일을 한 줄씩 읽어들이고, 각 줄에서 공백이나 구분자를 기준으로 데이터를 분리하여 벡터로 반환
- 다양한 데이터 유형을 지원하며, 문자열, 숫자, 논리값 등을 읽을 수 있다.
- 데이터 파일에서 누락된 값, 잘못된 값, 문자열로 표현된 논리값 등을 처리할 수 있는 다양한 옵션을 제공
scan(file = "", what = double(), n = -1, sep = "", quote = "\"'", dec = ".",
na.strings = "NA", flush = FALSE, fill = TRUE, strip.white = FALSE, quiet = FALSE,
skip = 0, multi.line = TRUE, comment.char = "#", allowEscapes = FALSE,
fileEncoding = "", encoding = "unknown")
file : 데이터를 읽어올 파일 이름 또는 URL
what : 읽어들일 데이터의 유형을 지정
n : 읽어들일 데이터의 개수를 지정
sep : 데이터를 구분하는 구분자
quote : 문자열을 묶는 따옴표 기호
dec : 소수점 기호를 지정
na.strings : 누락된 값을 나타내는 문자열
(2) 도수분포표
table(pie)
- 각 범주의 빈도수를 나타낸다.
▶ table( ) 함수
- 범주형 데이터를 요약하여 표 형태로 출력하는 함수
- 범주형 데이터란, 명목형 변수 또는 순서형 변수와 같이 카테고리 형태로 분류된 데이터를 말한다.
- 주어진 데이터 벡터에서 각 범주별 빈도수, 백분율, 상대 빈도 등을 계산할 수 있다.
Sale <- table(pie)
Total <- sum(Sale)
SaleProp <- round(100*Sale/Total,1)
SaleProp
▶ round( ) 함수
- 숫자를 지정된 소수점 자릿수로 반올림하는 데 사용된다.
- 음수 값을 사용하면 소수점 왼쪽 자리에서 반올림할 수도 있다.
round(prop.table(Sale)*100,1)
▶ prop.table( ) 함수
- table() 함수로 백분율로 표기하려면 prop.table() 함수를 함께 사용해야 한다.
- prop.table() 함수는 주어진 테이블의 셀 값들을 전체 합으로 나누어 백분율로 변환한다.
SaleProp <- round(SaleProp,1)
Pie.Freq <- cbind(Sale,SaleProp)
Pie.Freq
- 빈도수와 백분율을 함께 나타낼 수 있다.
▶ cbind( ) 함수
- cbind() 함수는 주어진 벡터나 행렬들을 열로 결합하여 새로운 행렬을 만드는 데 사용된다.
- 열 이름은 기본적으로 각 벡터의 이름이 사용된다.
- cbind() 함수는 더 많은 벡터나 행렬을 결합할 수 있으며, 열의 개수는 결합된 벡터나 행렬의 개수에 따라 결정된다.
(3) 막대 그래프 그리기
barplot(Sale,ylim=c(0,60),space=0.2, main="파이판매량")
abline(h=0)
abline(h=c(20,40,60),lty=2)
▶ barplot( ) 함수
barplot(height, ...)
height는 막대의 높이로 사용될 값입니다. 일반적으로 숫자형 벡터가 주어지며,
각 값은 막대의 높이를 나타냅니다.
names.arg: 막대의 이름을 지정하는 문자열 벡터입니다.
col: 막대의 색상을 지정하는 값이나 색상 벡터입니다.
border: 막대의 테두리 색상을 지정하는 값이나 색상 벡터입니다.
main: 그래프의 제목을 지정하는 문자열입니다.
xlab: x 축의 레이블을 지정하는 문자열입니다.
ylab: y 축의 레이블을 지정하는 문자열입니다.
ylim: y 축의 범위를 지정하는 데 사용됩니다.
space : 막대 사이의 간격을 조정하는 데 사용됩니다
위 그래프의 경우는 table( ) 함수로 만들어진 표에 높이에 해당하는 값과 각 범주가 포함되어 있기 때문에 따로 구분하지 않고 'Sale'만 매개변수로 사용하였습니다.
barplot(Sale,ylim=c(0,60),space=0.2, main="파이판매량",
col=c("purple","red","yellow","blue","green","brown"))
abline(h=0)
abline(h=c(20,40,60),lty=2)
▶ abline( ) 함수
- abline() 함수는 R에서 선을 그리는 데 사용됩니다. 주로 그래프에 수직선이나 수평선을 추가하는 데 활용됩니다. 이 함수는 기울기와 절편을 지정하여 선을 그릴 수 있습니다.
- abline(a, b) 형식으로 사용할 수 있으며, 여기서 a는 y 절편을 나타내고 b는 기울기를 나타냅니다. a와 b의 값을 조정하여 원하는 선을 그릴 수 있습니다.
- abline(0, 1)은 기울기가 1이고 y 절편이 0인 선을 그립니다. 이는 y = x 그래프로서, x와 y가 같은 지점을 지나는 대각선입니다.
- abline(h = 0)은 y 축의 0 지점을 가로지르는 수평선을 그립니다.
- abline(v = 0)은 x 축의 0 지점을 가로지르는 수직선을 그립니다.
(4) 파이차트(원도표) 그리기
pie(Sale, main="파이판매량")
▶ pie( ) 함수
pie(x,labels)
x: 원형 차트에 표시할 데이터입니다. 일반적으로 벡터 형태로 입력됩니다.
labels: 원형 차트의 각 섹션에 대한 레이블입니다.
main: 원형 차트의 제목입니다. 원형 차트 위에 표시됩니다.
col: 원형 차트의 섹션 색상을 지정합니다.
radius: 원형 차트의 반지름을 지정합니다. 기본값은 1로 설정되어 원형 차트의 크기가 기본 크기입니다.
clockwise: 섹션을 그리는 방향을 지정합니다. 기본값은 FALSE로 설정되어 반시계 방향으로 그려집니다.
border: 섹션의 테두리 색상을 지정합니다.
labels.arg: 각 섹션에 대한 레이블의 위치를 지정합니다.
explode: 특정 섹션을 강조하기 위해 해당 섹션을 원에서 분리하는 정도를 지정합니다.
pie(SaleProp)
names(SaleProp)
Percent <- c("고구마(11.5%)","딸기(22.2%)","바나나(7.3%)",
"블루베리(20.1%)","애플(25.2%)","초코(13.7%)")
names(SaleProp) <- Percent
pie(SaleProp, main="파이판매량")
'R과 통계학' 카테고리의 다른 글
4. R을 이용한 수치자료의 산포 정리 - 분산, 표준편차,분위수 (1) | 2023.05.29 |
---|---|
3. R을 이용한 수치자료의 중심 정리 - 평균,중앙값,최빈값 (1) | 2023.05.28 |
2. R을 이용한 자료의 요약 정리 II (0) | 2023.05.27 |
댓글