일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- select()
- groupe_by()
- mutate()
- AES
- sample_n()
- proc contents
- filter()
- dplyr
- samp;e_frac()
- distinct()
- arrange()
- summarize()
- 대칭형 알고리즘
- Today
- Total
목록통계 (34)
Gae Ko's Blog
dplyr의 핵심 동사 dplyr의 핵심 동사는 다음과 같다. filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutate(df, 타겟변수1 = 변환, ... ) : 변수 변환summarize(df, 타겟변수1=통계함수, ... ) : 변수 요약distinct( )sample_n( ) and sample_frac( ) 1. 행을 선택하는 filter() filter( DF, 필터링 조건) 조건에 맞는 행을 추출해준다.첫번째 파라미터는 데이터프레임, 두 번째 파라미터는 필터링 조건이다. # 예제데이터 gapminder패키지와 dplyr 패키지 로드# library(gapminder)# libra..
dplyr 는 데이터를 빨리 쉽게 가공할 수 있도록 도와주는 R 패키지 1. 베이스 R 데이터 가공과의 비교 - 체인(chain)연산자 %>% 사용- 베이스 R 데이터 처리는 인덱싱 연산자 [, [[ , $ 를 사용하는 반해, dplyr는 이들을 사용하지 않고 '동사'를 조합하여 사용 몇가지 동사를 사용하여 코드 쓰기 편리 - R studio 사용하면 변수명 자동완성 - 데이터 프레임만 처리. 베이스 R은 데이터 프레임뿐만 아니라 벡터, 행렬, 다차원 배열, 리스트 가능- 문법이 SQL과 유사 2. dplyr의 핵심 동사 filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutata(df, 타겟..
apply 함수에 대해서 R도움말에서는 다음과 같이 기술하였다. Returns a vector or array or list of values obtained by applying a function to margins of an array or matrix. 기존에 정의된 함수를 행 또는 열에 편하게 적용할 수 있게 만들어주는 역할을 한다.이 함수는 적용하는 대상의 종류에 따라서 사용되는 함수가 달라지는데백터나 배열인 경우에 apply함수, list인경우에는 lapply함수, table인 경우에는 tapply함수를 사용한다. 사용법 apply( X, MARGIN, FUN, ... ) X : 배열 MARGIN : 함수가 적용될 부분을 선택. 1은 행(가로방향)을 의미하고, 2는 열(세로방향)을 의미하고,..
▶ 특정 기준에 따라서 정렬하는 방법 SAS에서는 데이터셋을 특정 기준으로 merge()하기 전에 정렬 sort 를 실행한다.R에서는 merge할 때 사전에 sort해 줄 필요 없음. (merge는 데이터셋을 병합해주는 함수) R에서 데이터 정렬을 위한 대표적인 함수로 sort() 와 order() 함수가 있다.sort()는 정렬된 값을 순서대로 보여주는 반면에, order()는 데이터 크기의 인덱스 값을 제공한다. (1) 숫자 자체 정렬 sort()sort()의 디폴트 정렬순은 오름차순.내림차순으로 하려면 decreasing = TRUE 라는 옵션을 추가한다.데이터프레임에서는 사용할 수 없음. 그래서 백터 정렬시에 사용. (2) 정렬 인덱스 값 order()R에서의 인덱스는 1부터 시작한다. order..
Data type and Data attribute R에서 제공하는 기본적인 데이터형에는 벡터(vector), 리스트(list), 행렬(matrix), 데이터프레임(dataframe) 등이 있다. vector : 일차형 데이터형. c, seq, rep 등으로 생성. [ 연산자로 인덱싱factor : 범주형 데이터를 효율적으로 처리하는 데에 사용. R은 보통 문자 벡터를 팩터형으로 바꾸는 경우가 대부분. level() 함수로 범주 혹은 '레벨'을 알아냄. factor(), as.factor()로 생성.matrix : 2차원 배열. matrix(), array()로 생성. [ 연산자로 인덱싱.list : 각 구성요소로 어떤 데이터형이든 가질 수 있는 유연한 데이터형. list()로 생성. [[ 나 $ 연산자..
알아두면 유용한 Rstudio 단축키 실행하기 ctrl + enter 커서가 놓인 해당 줄 실행 ctrl + shift + enter 현재 스크립트창의 전체 코드가 실행 주석 처리하기ctrl + shift + c 커서가 놓인 줄은 주석처리. 다시 누르면 주석처리 해제. 또는 영역을 지정한 뒤에 하면 영역이 주석처리 된다. 줄맞추기 기능ctrl + i 줄맞출 영역을 지정한 뒤에 ctrl + i
검정력함수 모수의 함수로서 모수의 값에 따른 귀무가설을 기각할 확률에 대한 함수 귀무분포 귀무가설이 참일 때의 검정통계량의 분포 유의확률 (P-value) 귀무가설이 참일 때,검정통계량의 값이 표본으로부터 관측된 값과 같거나 H1을 지지하는 쪽으로 더 치우칠 확률 따라서 주어진 유의수준보다 P-value가 작으면 귀무가설을 기각. 일반적으로 주어진 유의수준에 해당하는 기각역을 제시하기 보다는 유의확울을 제시하는 것이 의사결정자에 따른 유의수준의 차이에 구애받지 않으므로 더 바람직하다고 봄.
* 데이터 탐색(히스토그램, 상자그림)을 통해 자료분석을 하게 될 경우, 구분점을 발견하게 되면 구분점을 중심으로 나눠서 분석한다.이상한 집단으로 생각되는 값은 삭제하지 않고 별도로 추가분속을 실시한다. * 정규성 검토 시 일직선이다 아니다 만을 생각하지 말고 이상치 같은 아이들을 나눠서 분해하여 생각해보자→ 구분점을 발견하자→ 구분점을 기준으로 구간화하여 분석하자
두 집단의 분포 비교하기 (T검정)T-Test의 조건 : 정규성 & 등분산성 >> SAS code 1. 데이터 가져오기 PROC EXPORT 2. 데이터 셋 내의 전체 속성 보기PROC CONTENTS 변수들에 대해서 알 수 있는 프로시저 (결과 중 일부분) 여기서 예제 데이터는 지역(region)에 따른 사교육비(edu)에 대한 데이터 지역은 각 지역마다 숫자로 표시 (ex. 11번=서울, 39번=대전) // PROC CONTENTS 란?See concepts for the CONTENTS Statement. (SAS 도움말 : http://documentation.sas.com/?docsetId=proc&docsetVersion=9.4&docsetTarget=n0v6kjzws1u302n1u3pt7rp..