일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- select()
- mutate()
- groupe_by()
- samp;e_frac()
- filter()
- proc contents
- AES
- summarize()
- distinct()
- dplyr
- sample_n()
- arrange()
- 대칭형 알고리즘
- Today
- Total
목록분류 전체보기 (114)
Gae Ko's Blog
'우도'라는 개념은 가설 검정 또는 회귀분석에서 자주 나오는 개념이다.그래서 이러한 것들을 더 잘 이해하기 위해 우도(likelihood, 가능도)에 대한 이해가 우선적이다. 모수로부터 특정 현상이 관찰되는 것을 확률의 문제라고 한다면, 우도는 확률의 반대 개념이다. 주어진 현상을 가지고 이 현상이 추출될 가능성을 가장 높게 하는(우도가 가장 높은) 모수를 거꾸로 추적하는 방법이 최대우도법이다. 우도비 검정(likelihood ratio test)이란 두 개의 모형의 우도의 비를 계산해서 두 모형의 우도가 유의한 차이가 나는지 비교하는 방법이다. 【관련 링크】 http://dermabae.tistory.com/188
통계적 가설검정 생활 속에서 우리가 입증하고 싶은 주장과 그에 상반된 주장이 있으며 이 두 주장 가운데 하나를 선택할 기준이 필요하다.여기서 '통계적 가설 검정'이란 H0를 기각할 지의 여부를 결정하는 규칙이다. 검정은 기각역(critical region) C를 사용하여 나타낸다. 즉 (x₁, ..., xn) ∈ C이면 H0를 기각한다.(==> 기각역 찾는 것을 목표) 정의1.객관적 근거에 의해 입증하고자하는 주장을 대립가설(alternative hypothesis)이라 하고 H1라고 표기하며, 그 반대되는 주장을 귀무가설(null hypothesis)이라 하고 H0로 표시한다. 정의2.옳은 H0를 기각하는 잘못된 결정을 내리면 제 1종 오류(type 1 error)를 범했다고 하며, 반대로 h0를 채택..
R에서 워킹 디텍토리(Working directory)를 설정하는 방법 > 워킹 디렉토리란? 말 그대로 작업 폴더를 의미한다. 데이터를 불러오거나 외부로 저장하는 작업을 수행하는 기본폴더이다.물론 워킹 디렉토리가 아닌 곳에서 데이터를 불러올 수 있지만 기본적으로 워킹 디텍토리를 통해서 불러오는 것이 안정적이다. 기본적으로 r작업중에 생성되는 script, data set이 워킹 디렉토리에 저장된다, 따라서 r분석을 할 떄 가장 먼저 해야하는 일은 현재 작업공간을 설정하는 일이다. > 현재 설정된 워킹 디렉토리 확인하기 : getwd() > 새로운 워킹 디렉토리 설정하기 : set()
내가 분석하고자 하는 예제데이터를 선정하여 분석하는 것을 목표로 하였다.그래서 주제을 정해 예제데이터를 찾아 보았지만 그거조차 너무 어려워서 다른 사람이 분석해논 것을 따라하며 분석해보기로 하였다. >> 스팸메일 예측하기 1. 스팸메일 데이터 이메일 사용자가 스팸메일을 수동으로 삭제하는 것은 불편하므로 자동으로 스팸메일을 구분하여 삭제하도록 하고 싶다.이때 스팸메일 데이터를 분류분석하고자 한다.예제 데이터는 잘 알려진 spambase(스팸베이스)를 사용한다. → 구글링하여 쉽게 얻을 수 있었다. 스팸메일과 일반메일을 구분하는 방법은 무엇이 있을까?단순한 방법으로 메일 내용을 이용하는 것이다. 스팸메일에 많이 등장하는 단어, 글자, 구두점들을 찾아내어 그러한 것들을 많이 포함하는 메일을 스팸메일로 분류하는..
먼저 dplyr의 핵심 동사는 다음과 같다. filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutate(df, 타겟변수1 = 변환, ... ) : 변수 변환summarize(df, 타겟변수1=통계함수, ... ) : 변수 요약distinct( )sample_n( ) and sample_frac( ) 각 함수에 대하여 ☞ http://gaeko-security-hack.tistory.com/129?category=722260 ※ group_by를 이용한 그룹 연산 group_by() 명령은 데이터셋을 그룹으로 나눈 후, 그룹별로 위의 연산들을 적용한다. group_by( DF, GROUPING..
dplyr의 핵심 동사 dplyr의 핵심 동사는 다음과 같다. filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutate(df, 타겟변수1 = 변환, ... ) : 변수 변환summarize(df, 타겟변수1=통계함수, ... ) : 변수 요약distinct( )sample_n( ) and sample_frac( ) 1. 행을 선택하는 filter() filter( DF, 필터링 조건) 조건에 맞는 행을 추출해준다.첫번째 파라미터는 데이터프레임, 두 번째 파라미터는 필터링 조건이다. # 예제데이터 gapminder패키지와 dplyr 패키지 로드# library(gapminder)# libra..
dplyr 는 데이터를 빨리 쉽게 가공할 수 있도록 도와주는 R 패키지 1. 베이스 R 데이터 가공과의 비교 - 체인(chain)연산자 %>% 사용- 베이스 R 데이터 처리는 인덱싱 연산자 [, [[ , $ 를 사용하는 반해, dplyr는 이들을 사용하지 않고 '동사'를 조합하여 사용 몇가지 동사를 사용하여 코드 쓰기 편리 - R studio 사용하면 변수명 자동완성 - 데이터 프레임만 처리. 베이스 R은 데이터 프레임뿐만 아니라 벡터, 행렬, 다차원 배열, 리스트 가능- 문법이 SQL과 유사 2. dplyr의 핵심 동사 filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutata(df, 타겟..
R의 베이스 패키지로 데이터 가공하는 코드로 다음과 같다. # 데이터를 로드install.packages("gapminder")library(gapminder) # 행과 열 선택 gapminder[gapminder$country=='Korea, Rep.', c('pop', 'gdpPercap')] # 행선택gapminder[gapminder$country=='Korea, Rep.',]gapminder[gapminder$year==2007,]gapminder[gapminder$country=='Korea, Rep.' & gapminder$year==2007, ]gapminder[1:10, ]head(gapminder, 10) # 정렬gapminder[order(gapminder$year, gapminder..
apply 함수에 대해서 R도움말에서는 다음과 같이 기술하였다. Returns a vector or array or list of values obtained by applying a function to margins of an array or matrix. 기존에 정의된 함수를 행 또는 열에 편하게 적용할 수 있게 만들어주는 역할을 한다.이 함수는 적용하는 대상의 종류에 따라서 사용되는 함수가 달라지는데백터나 배열인 경우에 apply함수, list인경우에는 lapply함수, table인 경우에는 tapply함수를 사용한다. 사용법 apply( X, MARGIN, FUN, ... ) X : 배열 MARGIN : 함수가 적용될 부분을 선택. 1은 행(가로방향)을 의미하고, 2는 열(세로방향)을 의미하고,..
▶ 특정 기준에 따라서 정렬하는 방법 SAS에서는 데이터셋을 특정 기준으로 merge()하기 전에 정렬 sort 를 실행한다.R에서는 merge할 때 사전에 sort해 줄 필요 없음. (merge는 데이터셋을 병합해주는 함수) R에서 데이터 정렬을 위한 대표적인 함수로 sort() 와 order() 함수가 있다.sort()는 정렬된 값을 순서대로 보여주는 반면에, order()는 데이터 크기의 인덱스 값을 제공한다. (1) 숫자 자체 정렬 sort()sort()의 디폴트 정렬순은 오름차순.내림차순으로 하려면 decreasing = TRUE 라는 옵션을 추가한다.데이터프레임에서는 사용할 수 없음. 그래서 백터 정렬시에 사용. (2) 정렬 인덱스 값 order()R에서의 인덱스는 1부터 시작한다. order..