[Data Science] 데이터 가공
R의 베이스 패키지로 데이터 가공하는 코드로 다음과 같다.
# 데이터를 로드
install.packages("gapminder")
library(gapminder)
# 행과 열 선택
gapminder[gapminder$country=='Korea, Rep.', c('pop', 'gdpPercap')]
# 행선택
gapminder[gapminder$country=='Korea, Rep.',]
gapminder[gapminder$year==2007,]
gapminder[gapminder$country=='Korea, Rep.' & gapminder$year==2007, ]
gapminder[1:10, ]
head(gapminder, 10)
# 정렬
gapminder[order(gapminder$year, gapminder$country),]
# 변수 선택
gapminder[, c('pop', 'gdpPercap')]
gapminder[, 1:3]
# 변수명 바꾸기 : gapPercap를 gdp_per_cap으로 변경
names(gapminder)[6] = 'gdp_per_cap'
# 변수 변환과 변수 생성
f1 = gapminder
gapminder$total = gapminder$pop * gapminder$gdp_per_cap
# 요약 통계량 계산
median(gapminder$gdpPercap)
apply((gapminder[, 1:3], 2, mean))
summary(gapminder)
# // order() 함수란? 정렬해주는 함수
http://gaeko-security-hack.tistory.com/132?category=722260
# // apply() 함수란? 기존에 정의된 함수를 행 또는 열에 편하게 적용하도록 해주는 함수
http://gaeko-security-hack.tistory.com/133?category=722260
이처럼 베이스 R은 데이터 가공을 위한 기능을 제공해준다.
하지만 dplyr패키지를 사용하면 베이스 R보다 더 편리한 데이터 가공을 할 수 있다. (개취)
dplyr은 데이터를 빨리 쉽게 가공할 수 있도록 도와주는 R 패키지이다.
-->> R의 dplyr 패키지 http://gaeko-security-hack.tistory.com/127?category=722260