일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- summarize()
- mutate()
- 대칭형 알고리즘
- select()
- distinct()
- AES
- arrange()
- proc contents
- sample_n()
- filter()
- samp;e_frac()
- groupe_by()
- dplyr
- Today
- Total
목록통계 (34)
Gae Ko's Blog
Prediction and Forecast prediction과 forecast라는 단어를 굳이 번역하자면 예측과 예상인데, 한국어로는 이 둘의 단어는 비슷한 느낌이라 헷갈리므로 영어 자체로의 의미를 생각하면 다음과 같은 차이가 있다. ● prediction : 구체적인 명시 ● forecast : 확률적인 진술 회귀분석을 배우고 있는 입장에서의 Prediction과 Forecast의 의미 차이 주어진 데이터 (X, Y)를 바탕으로 회귀모델을 세운 경우에 모델링한 X의 범위 내에서 새로운 X*값에 대한 Y값을 알고자하는 것을 Prediction 라고 보고,모델링하는 X의 범위를 벗어난 새로운 X의 값에 대한 Y값을 알고자 하는 것을 Forecast 라고 보면 됨. 이유는 벗어난 부분에서 패턴이 변할 지도..
[ 정규분포 N ] [ 표준정규분포 Z] [ 카이제곱분포 ] [ T 분포 (Student's t-distribution)] [ F 분포 ] .
적합시킬 모형 : y = β0 + β₁x₁ + β₂x₂ + β₃x₃ + ε > correlation 결과 (with y) x1 : 0.44892 약간 퍼져있다.x2 : 0.84797 상관계수 높다.x3 : 0.08978 오... 전혀 상관성이 없어 보인다. 피어슨 상관 계수, N = 12 H0: Rho=0 가정하에서 Prob > |r| x1 x2 x3 y x1 1.00000 0.00000 1.0000 0.00000 1.0000 0.44892 0.1432 x2 0.00000 1.0000 1.00000 0.00000 1.0000 0.84797 0.0005 x3 0.00000 1.0000 0.00000 1.0000 1.00000 0.08978 0.7814 y 0.44892 0.1432 0.84797 0.000..
예제(9.2)종합체의 점도(y)와 두 가지의 공정변수, 반응온도(x1)와 촉매공급률(x2)에 대한 16개의 관측값들이 있다. 점도는 이 두 변수와 선형 관계가 있다고 판단된다. 회귀의 유의성을 검증하라. 적합시킬 모형 : y = β0 + β₁x₁ + β₂x₂ + ε 일단 x1와 x2의 관측값을 각자 y와 plot하여 분포를 살펴보자. x1은 y와 뭔가 선형성이 보인다. x2는 y와 아무런 관련이 없는 거 같아 보인다. 상관계수를 구해보니 x1와의 상관계수는 0.95293으로 매우 높은 반면 x2와의 상관계수는 0.27167로 매우 낮다. 위에서 분포를 보고 추측한 결과와 매우 잘 맞는거 같다. 이제 y = β0 + β₁x₁ + β₂x₂ + ε 모형으로 회귀분석을 해보자. Analysis of Varian..
F 분포 F분포란 연속확률분포이면서 표본분포로, 카이제곱분포와 마찬가지로 분산을 추정하고 검정할 때 사용되는 분포이다.그래서 분산의 제곱된 값을 다루기에 +값만 존재하며, 그렇기 때문에 그래프가 비대칭 모양을 하고 있다. F분포와 카이제곱분포의 차이가 있는데, 그것은 카이제곱분포는 한 집단의 분산을 파악할 때 사용하는 반면 F분포는 두 집단의 분산을 비교할 때 사용된다. 그리고 3개 이상 집단의 분산을 비교하는 분산분석(ANOVA, Analysis of Variance) 혹은 실험계획법(DOC, Design of Experiment)이라고 하는데, 이 분산분석에서 F분포는 정말 많이 나온다. 두 개의 독립적인 표본이 각각 정규모집단 N(μ₁, σ₁²)에서 추출한 n₁개의 표본과 N(μ₁₂ σ₂²)에서 추..
T 분포 ※ 정의입에 착착 달라붙게 t분포는 표준정규분포를 '카이제곱분포를 자유도를 나눈 것에 루트씌운 것'으로 나눈 확률변수 t 분포는 종모양으로 t=0에서 좌우대칭을 이룬다. t 분포 모양을 결정하는 것은 자유도이며, 자유도가 커질수록 표준정규분포에 가깝게 된다. ※ 정규분포에서의 추정 어떤 정규분포의 평균이 μ이고 분산이 σ^2일 때, 그 분포에서 n개의 표본을 추출한 것을 정의라고 표기한다.표본평균과 표본분산은 다음과 같다. 이 값들은 실제 평균과 분산에 대한 불평추정량이다.이때, (Cochran's theorem)그리고 V와 Z는 서로 독립임을 증명할 수 있다. 이때 Z에서 σ^2 대신 S^2 으로 대체한 추축량은 다음과 같다. 이 분포는 σ^2를 사용되지 않았으므로, 분산을 모르는 μ를 추정하..
'우도'라는 개념은 가설 검정 또는 회귀분석에서 자주 나오는 개념이다.그래서 이러한 것들을 더 잘 이해하기 위해 우도(likelihood, 가능도)에 대한 이해가 우선적이다. 모수로부터 특정 현상이 관찰되는 것을 확률의 문제라고 한다면, 우도는 확률의 반대 개념이다. 주어진 현상을 가지고 이 현상이 추출될 가능성을 가장 높게 하는(우도가 가장 높은) 모수를 거꾸로 추적하는 방법이 최대우도법이다. 우도비 검정(likelihood ratio test)이란 두 개의 모형의 우도의 비를 계산해서 두 모형의 우도가 유의한 차이가 나는지 비교하는 방법이다. 【관련 링크】 http://dermabae.tistory.com/188
통계적 가설검정 생활 속에서 우리가 입증하고 싶은 주장과 그에 상반된 주장이 있으며 이 두 주장 가운데 하나를 선택할 기준이 필요하다.여기서 '통계적 가설 검정'이란 H0를 기각할 지의 여부를 결정하는 규칙이다. 검정은 기각역(critical region) C를 사용하여 나타낸다. 즉 (x₁, ..., xn) ∈ C이면 H0를 기각한다.(==> 기각역 찾는 것을 목표) 정의1.객관적 근거에 의해 입증하고자하는 주장을 대립가설(alternative hypothesis)이라 하고 H1라고 표기하며, 그 반대되는 주장을 귀무가설(null hypothesis)이라 하고 H0로 표시한다. 정의2.옳은 H0를 기각하는 잘못된 결정을 내리면 제 1종 오류(type 1 error)를 범했다고 하며, 반대로 h0를 채택..
R에서 워킹 디텍토리(Working directory)를 설정하는 방법 > 워킹 디렉토리란? 말 그대로 작업 폴더를 의미한다. 데이터를 불러오거나 외부로 저장하는 작업을 수행하는 기본폴더이다.물론 워킹 디렉토리가 아닌 곳에서 데이터를 불러올 수 있지만 기본적으로 워킹 디텍토리를 통해서 불러오는 것이 안정적이다. 기본적으로 r작업중에 생성되는 script, data set이 워킹 디렉토리에 저장된다, 따라서 r분석을 할 떄 가장 먼저 해야하는 일은 현재 작업공간을 설정하는 일이다. > 현재 설정된 워킹 디렉토리 확인하기 : getwd() > 새로운 워킹 디렉토리 설정하기 : set()
먼저 dplyr의 핵심 동사는 다음과 같다. filter(df, 조건) : 행 선택arrange(df, 변수1, 변수2, ...) : 행 정렬select(df, 변수1, 변수2, ... ) : 변수/열 선택mutate(df, 타겟변수1 = 변환, ... ) : 변수 변환summarize(df, 타겟변수1=통계함수, ... ) : 변수 요약distinct( )sample_n( ) and sample_frac( ) 각 함수에 대하여 ☞ http://gaeko-security-hack.tistory.com/129?category=722260 ※ group_by를 이용한 그룹 연산 group_by() 명령은 데이터셋을 그룹으로 나눈 후, 그룹별로 위의 연산들을 적용한다. group_by( DF, GROUPING..