Gae Ko's Blog

[Data Science] 데이터 가공 본문

데이터과학/기초

[Data Science] 데이터 가공

Gae Ko 2018. 2. 19. 19:46

R의 베이스 패키지로 데이터 가공하는 코드로 다음과 같다.


# 데이터를 로드

install.packages("gapminder")

library(gapminder)


# 행과 열 선택 

gapminder[gapminder$country=='Korea, Rep.', c('pop', 'gdpPercap')]


# 행선택

gapminder[gapminder$country=='Korea, Rep.',]

gapminder[gapminder$year==2007,]

gapminder[gapminder$country=='Korea, Rep.' & gapminder$year==2007, ]

gapminder[1:10, ]

head(gapminder, 10)


# 정렬

gapminder[order(gapminder$year, gapminder$country),] 


# 변수 선택

gapminder[, c('pop', 'gdpPercap')]

gapminder[, 1:3]


# 변수명 바꾸기 : gapPercap를 gdp_per_cap으로 변경

names(gapminder)[6] = 'gdp_per_cap'


# 변수 변환과 변수 생성

f1 = gapminder

gapminder$total = gapminder$pop * gapminder$gdp_per_cap


# 요약 통계량 계산

median(gapminder$gdpPercap)

apply((gapminder[, 1:3], 2, mean))

summary(gapminder)



# // order() 함수란? 정렬해주는 함수 

http://gaeko-security-hack.tistory.com/132?category=722260

# // apply() 함수란?  기존에 정의된 함수를 행 또는 열에 편하게 적용하도록 해주는 함수 

http://gaeko-security-hack.tistory.com/133?category=722260



이처럼 베이스 R은 데이터 가공을 위한 기능을 제공해준다.

하지만 dplyr패키지를 사용하면  베이스 R보다 더 편리한 데이터 가공을 할 수 있다. (개취)

dplyr은 데이터를 빨리 쉽게 가공할 수 있도록 도와주는 R 패키지이다. 

-->> R의 dplyr 패키지 http://gaeko-security-hack.tistory.com/127?category=722260