일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- arrange()
- proc contents
- summarize()
- sample_n()
- filter()
- 대칭형 알고리즘
- AES
- samp;e_frac()
- select()
- distinct()
- dplyr
- groupe_by()
- mutate()
- Today
- Total
Gae Ko's Blog
[Data Science] 데이터 가공 본문
R의 베이스 패키지로 데이터 가공하는 코드로 다음과 같다.
# 데이터를 로드
install.packages("gapminder")
library(gapminder)
# 행과 열 선택
gapminder[gapminder$country=='Korea, Rep.', c('pop', 'gdpPercap')]
# 행선택
gapminder[gapminder$country=='Korea, Rep.',]
gapminder[gapminder$year==2007,]
gapminder[gapminder$country=='Korea, Rep.' & gapminder$year==2007, ]
gapminder[1:10, ]
head(gapminder, 10)
# 정렬
gapminder[order(gapminder$year, gapminder$country),]
# 변수 선택
gapminder[, c('pop', 'gdpPercap')]
gapminder[, 1:3]
# 변수명 바꾸기 : gapPercap를 gdp_per_cap으로 변경
names(gapminder)[6] = 'gdp_per_cap'
# 변수 변환과 변수 생성
f1 = gapminder
gapminder$total = gapminder$pop * gapminder$gdp_per_cap
# 요약 통계량 계산
median(gapminder$gdpPercap)
apply((gapminder[, 1:3], 2, mean))
summary(gapminder)
# // order() 함수란? 정렬해주는 함수
http://gaeko-security-hack.tistory.com/132?category=722260
# // apply() 함수란? 기존에 정의된 함수를 행 또는 열에 편하게 적용하도록 해주는 함수
http://gaeko-security-hack.tistory.com/133?category=722260
이처럼 베이스 R은 데이터 가공을 위한 기능을 제공해준다.
하지만 dplyr패키지를 사용하면 베이스 R보다 더 편리한 데이터 가공을 할 수 있다. (개취)
dplyr은 데이터를 빨리 쉽게 가공할 수 있도록 도와주는 R 패키지이다.
-->> R의 dplyr 패키지 http://gaeko-security-hack.tistory.com/127?category=722260