일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- dplyr
- filter()
- mutate()
- sample_n()
- 대칭형 알고리즘
- distinct()
- AES
- samp;e_frac()
- select()
- summarize()
- groupe_by()
- proc contents
- arrange()
- Today
- Total
목록통계/R (9)
Gae Ko's Blog
R에서 워킹 디텍토리(Working directory)를 설정하는 방법 > 워킹 디렉토리란? 말 그대로 작업 폴더를 의미한다. 데이터를 불러오거나 외부로 저장하는 작업을 수행하는 기본폴더이다.물론 워킹 디렉토리가 아닌 곳에서 데이터를 불러올 수 있지만 기본적으로 워킹 디텍토리를 통해서 불러오는 것이 안정적이다. 기본적으로 r작업중에 생성되는 script, data set이 워킹 디렉토리에 저장된다, 따라서 r분석을 할 떄 가장 먼저 해야하는 일은 현재 작업공간을 설정하는 일이다. > 현재 설정된 워킹 디렉토리 확인하기 : getwd() > 새로운 워킹 디렉토리 설정하기 : set()
먼저 dplyr의 핵심 동사는 다음과 같다. filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutate(df, 타겟변수1 = 변환, ... ) : 변수 변환summarize(df, 타겟변수1=통계함수, ... ) : 변수 요약distinct( )sample_n( ) and sample_frac( ) 각 함수에 대하여 ☞ http://gaeko-security-hack.tistory.com/129?category=722260 ※ group_by를 이용한 그룹 연산 group_by() 명령은 데이터셋을 그룹으로 나눈 후, 그룹별로 위의 연산들을 적용한다. group_by( DF, GROUPING..
dplyr의 핵심 동사 dplyr의 핵심 동사는 다음과 같다. filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutate(df, 타겟변수1 = 변환, ... ) : 변수 변환summarize(df, 타겟변수1=통계함수, ... ) : 변수 요약distinct( )sample_n( ) and sample_frac( ) 1. 행을 선택하는 filter() filter( DF, 필터링 조건) 조건에 맞는 행을 추출해준다.첫번째 파라미터는 데이터프레임, 두 번째 파라미터는 필터링 조건이다. # 예제데이터 gapminder패키지와 dplyr 패키지 로드# library(gapminder)# libra..
dplyr 는 데이터를 빨리 쉽게 가공할 수 있도록 도와주는 R 패키지 1. 베이스 R 데이터 가공과의 비교 - 체인(chain)연산자 %>% 사용- 베이스 R 데이터 처리는 인덱싱 연산자 [, [[ , $ 를 사용하는 반해, dplyr는 이들을 사용하지 않고 '동사'를 조합하여 사용 몇가지 동사를 사용하여 코드 쓰기 편리 - R studio 사용하면 변수명 자동완성 - 데이터 프레임만 처리. 베이스 R은 데이터 프레임뿐만 아니라 벡터, 행렬, 다차원 배열, 리스트 가능- 문법이 SQL과 유사 2. dplyr의 핵심 동사 filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutata(df, 타겟..
apply 함수에 대해서 R도움말에서는 다음과 같이 기술하였다. Returns a vector or array or list of values obtained by applying a function to margins of an array or matrix. 기존에 정의된 함수를 행 또는 열에 편하게 적용할 수 있게 만들어주는 역할을 한다.이 함수는 적용하는 대상의 종류에 따라서 사용되는 함수가 달라지는데백터나 배열인 경우에 apply함수, list인경우에는 lapply함수, table인 경우에는 tapply함수를 사용한다. 사용법 apply( X, MARGIN, FUN, ... ) X : 배열 MARGIN : 함수가 적용될 부분을 선택. 1은 행(가로방향)을 의미하고, 2는 열(세로방향)을 의미하고,..
▶ 특정 기준에 따라서 정렬하는 방법 SAS에서는 데이터셋을 특정 기준으로 merge()하기 전에 정렬 sort 를 실행한다.R에서는 merge할 때 사전에 sort해 줄 필요 없음. (merge는 데이터셋을 병합해주는 함수) R에서 데이터 정렬을 위한 대표적인 함수로 sort() 와 order() 함수가 있다.sort()는 정렬된 값을 순서대로 보여주는 반면에, order()는 데이터 크기의 인덱스 값을 제공한다. (1) 숫자 자체 정렬 sort()sort()의 디폴트 정렬순은 오름차순.내림차순으로 하려면 decreasing = TRUE 라는 옵션을 추가한다.데이터프레임에서는 사용할 수 없음. 그래서 백터 정렬시에 사용. (2) 정렬 인덱스 값 order()R에서의 인덱스는 1부터 시작한다. order..
Data type and Data attribute R에서 제공하는 기본적인 데이터형에는 벡터(vector), 리스트(list), 행렬(matrix), 데이터프레임(dataframe) 등이 있다. vector : 일차형 데이터형. c, seq, rep 등으로 생성. [ 연산자로 인덱싱factor : 범주형 데이터를 효율적으로 처리하는 데에 사용. R은 보통 문자 벡터를 팩터형으로 바꾸는 경우가 대부분. level() 함수로 범주 혹은 '레벨'을 알아냄. factor(), as.factor()로 생성.matrix : 2차원 배열. matrix(), array()로 생성. [ 연산자로 인덱싱.list : 각 구성요소로 어떤 데이터형이든 가질 수 있는 유연한 데이터형. list()로 생성. [[ 나 $ 연산자..
알아두면 유용한 Rstudio 단축키 실행하기 ctrl + enter 커서가 놓인 해당 줄 실행 ctrl + shift + enter 현재 스크립트창의 전체 코드가 실행 주석 처리하기ctrl + shift + c 커서가 놓인 줄은 주석처리. 다시 누르면 주석처리 해제. 또는 영역을 지정한 뒤에 하면 영역이 주석처리 된다. 줄맞추기 기능ctrl + i 줄맞출 영역을 지정한 뒤에 ctrl + i
R 데이터프레임 결합 : rbind( ), cbind( ), merge( ) - 함수 비교 (1) 행 결합 (위 + 아래) : rbind( A, B) rbind는 row bind 의 약자 위의 행결합 rbind()를 하기 위해서는 결합하려는 두 개의 데이터셋의 열의 개수와 속성, 이름이 같아야만 함 만약 맞지 않으면 맞지 않다고 에러메세지가 뜸 ==사진== (2) 열 결합 (왽쪽 + 오른쪽) : cbind( A, B) cbind는 column bind의 약자 cbind()도 결합하려는 두 데이터셋의 관측치가 행이 서로 동일 대상이여야하고, 행의 개수도 서로 같아야만 함 마찬가지로 맞지 않으면 맞지 않다고 에러메세지가 뜸==사진== (3) 동일 key 값 기준 결합 : merge( A, B, by='key..