'분류 전체보기' 카테고리의 글 목록 (3 Page)

Notice

이 블로그는 오로지 나를 위한 블로그 입니다.⋯

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (114)

Gae Ko's Blog

[통계] 우도(likelihood) // 링크

'우도'라는 개념은 가설 검정 또는 회귀분석에서 자주 나오는 개념이다.그래서 이러한 것들을 더 잘 이해하기 위해 우도(likelihood, 가능도)에 대한 이해가 우선적이다. 모수로부터 특정 현상이 관찰되는 것을 확률의 문제라고 한다면, 우도는 확률의 반대 개념이다. 주어진 현상을 가지고 이 현상이 추출될 가능성을 가장 높게 하는(우도가 가장 높은) 모수를 거꾸로 추적하는 방법이 최대우도법이다. 우도비 검정(likelihood ratio test)이란 두 개의 모형의 우도의 비를 계산해서 두 모형의 우도가 유의한 차이가 나는지 비교하는 방법이다. 【관련 링크】 http://dermabae.tistory.com/188

통계/통계학에 대한 정보 2018. 2. 28. 15:51

[수리통계] 통계적 가설검정이란(정의)

통계적 가설검정 생활 속에서 우리가 입증하고 싶은 주장과 그에 상반된 주장이 있으며 이 두 주장 가운데 하나를 선택할 기준이 필요하다.여기서 '통계적 가설 검정'이란 H0를 기각할 지의 여부를 결정하는 규칙이다. 검정은 기각역(critical region) C를 사용하여 나타낸다. 즉 (x₁, ..., xn) ∈ C이면 H0를 기각한다.(==> 기각역 찾는 것을 목표) 정의1.객관적 근거에 의해 입증하고자하는 주장을 대립가설(alternative hypothesis)이라 하고 H1라고 표기하며, 그 반대되는 주장을 귀무가설(null hypothesis)이라 하고 H0로 표시한다. 정의2.옳은 H0를 기각하는 잘못된 결정을 내리면 제 1종 오류(type 1 error)를 범했다고 하며, 반대로 h0를 채택..

통계/통계학에 대한 정보 2018. 2. 26. 14:51

[Rstudio] 작업 디렉토리 설정하기

R에서 워킹 디텍토리(Working directory)를 설정하는 방법 > 워킹 디렉토리란? 말 그대로 작업 폴더를 의미한다. 데이터를 불러오거나 외부로 저장하는 작업을 수행하는 기본폴더이다.물론 워킹 디렉토리가 아닌 곳에서 데이터를 불러올 수 있지만 기본적으로 워킹 디텍토리를 통해서 불러오는 것이 안정적이다. 기본적으로 r작업중에 생성되는 script, data set이 워킹 디렉토리에 저장된다, 따라서 r분석을 할 떄 가장 먼저 해야하는 일은 현재 작업공간을 설정하는 일이다. > 현재 설정된 워킹 디렉토리 확인하기 : getwd() > 새로운 워킹 디렉토리 설정하기 : set()

통계/R 2018. 2. 20. 18:09

데과 보고서용 (겨울방학)

내가 분석하고자 하는 예제데이터를 선정하여 분석하는 것을 목표로 하였다.그래서 주제을 정해 예제데이터를 찾아 보았지만 그거조차 너무 어려워서 다른 사람이 분석해논 것을 따라하며 분석해보기로 하였다. >> 스팸메일 예측하기 1. 스팸메일 데이터 이메일 사용자가 스팸메일을 수동으로 삭제하는 것은 불편하므로 자동으로 스팸메일을 구분하여 삭제하도록 하고 싶다.이때 스팸메일 데이터를 분류분석하고자 한다.예제 데이터는 잘 알려진 spambase(스팸베이스)를 사용한다. → 구글링하여 쉽게 얻을 수 있었다. 스팸메일과 일반메일을 구분하는 방법은 무엇이 있을까?단순한 방법으로 메일 내용을 이용하는 것이다. 스팸메일에 많이 등장하는 단어, 글자, 구두점들을 찾아내어 그러한 것들을 많이 포함하는 메일을 스팸메일로 분류하는..

etc 2018. 2. 20. 04:44

[Data Science] dplyr의 group_by, chaining, join

먼저 dplyr의 핵심 동사는 다음과 같다. filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutate(df, 타겟변수1 = 변환, ... ) : 변수 변환summarize(df, 타겟변수1=통계함수, ... ) : 변수 요약distinct( )sample_n( ) and sample_frac( ) 각 함수에 대하여 ☞ http://gaeko-security-hack.tistory.com/129?category=722260 ※ group_by를 이용한 그룹 연산 group_by() 명령은 데이터셋을 그룹으로 나눈 후, 그룹별로 위의 연산들을 적용한다. group_by( DF, GROUPING..

통계/R 2018. 2. 20. 03:04

[Data Science] dplyr 핵심 동사

dplyr의 핵심 동사 dplyr의 핵심 동사는 다음과 같다. filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutate(df, 타겟변수1 = 변환, ... ) : 변수 변환summarize(df, 타겟변수1=통계함수, ... ) : 변수 요약distinct( )sample_n( ) and sample_frac( ) 1. 행을 선택하는 filter() filter( DF, 필터링 조건) 조건에 맞는 행을 추출해준다.첫번째 파라미터는 데이터프레임, 두 번째 파라미터는 필터링 조건이다. # 예제데이터 gapminder패키지와 dplyr 패키지 로드# library(gapminder)# libra..

통계/R 2018. 2. 19. 22:34

[Data Science] R의 dplyr 패키지

dplyr 는 데이터를 빨리 쉽게 가공할 수 있도록 도와주는 R 패키지 1. 베이스 R 데이터 가공과의 비교 - 체인(chain)연산자 %>% 사용- 베이스 R 데이터 처리는 인덱싱 연산자 [, [[ , $ 를 사용하는 반해, dplyr는 이들을 사용하지 않고 '동사'를 조합하여 사용 몇가지 동사를 사용하여 코드 쓰기 편리 - R studio 사용하면 변수명 자동완성 - 데이터 프레임만 처리. 베이스 R은 데이터 프레임뿐만 아니라 벡터, 행렬, 다차원 배열, 리스트 가능- 문법이 SQL과 유사 2. dplyr의 핵심 동사 filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutata(df, 타겟..

통계/R 2018. 2. 19. 22:34

[Data Science] 데이터 가공

R의 베이스 패키지로 데이터 가공하는 코드로 다음과 같다. # 데이터를 로드install.packages("gapminder")library(gapminder) # 행과 열 선택 gapminder[gapminder$country=='Korea, Rep.', c('pop', 'gdpPercap')] # 행선택gapminder[gapminder$country=='Korea, Rep.',]gapminder[gapminder$year==2007,]gapminder[gapminder$country=='Korea, Rep.' & gapminder$year==2007, ]gapminder[1:10, ]head(gapminder, 10) # 정렬gapminder[order(gapminder$year, gapminder..

데이터과학/기초 2018. 2. 19. 19:46

[R] apply() 함수

apply 함수에 대해서 R도움말에서는 다음과 같이 기술하였다. Returns a vector or array or list of values obtained by applying a function to margins of an array or matrix. 기존에 정의된 함수를 행 또는 열에 편하게 적용할 수 있게 만들어주는 역할을 한다.이 함수는 적용하는 대상의 종류에 따라서 사용되는 함수가 달라지는데백터나 배열인 경우에 apply함수, list인경우에는 lapply함수, table인 경우에는 tapply함수를 사용한다. 사용법 apply( X, MARGIN, FUN, ... ) X : 배열 MARGIN : 함수가 적용될 부분을 선택. 1은 행(가로방향)을 의미하고, 2는 열(세로방향)을 의미하고,..

통계/R 2018. 2. 16. 03:02

[R] 정렬하기

▶ 특정 기준에 따라서 정렬하는 방법 SAS에서는 데이터셋을 특정 기준으로 merge()하기 전에 정렬 sort 를 실행한다.R에서는 merge할 때 사전에 sort해 줄 필요 없음. (merge는 데이터셋을 병합해주는 함수) R에서 데이터 정렬을 위한 대표적인 함수로 sort() 와 order() 함수가 있다.sort()는 정렬된 값을 순서대로 보여주는 반면에, order()는 데이터 크기의 인덱스 값을 제공한다. (1) 숫자 자체 정렬 sort()sort()의 디폴트 정렬순은 오름차순.내림차순으로 하려면 decreasing = TRUE 라는 옵션을 추가한다.데이터프레임에서는 사용할 수 없음. 그래서 백터 정렬시에 사용. (2) 정렬 인덱스 값 order()R에서의 인덱스는 1부터 시작한다. order..

통계/R 2018. 2. 16. 02:05

이전 Prev 1 2 3 4 5 6 ··· 12 Next 다음

목록분류 전체보기 (114)

Gae Ko's Blog

티스토리툴바