일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- summarize()
- sample_n()
- 대칭형 알고리즘
- AES
- dplyr
- distinct()
- arrange()
- samp;e_frac()
- mutate()
- filter()
- groupe_by()
- select()
- proc contents
- Today
- Total
목록통계/통계학에 대한 정보 (12)
Gae Ko's Blog
Prediction and Forecast prediction과 forecast라는 단어를 굳이 번역하자면 예측과 예상인데, 한국어로는 이 둘의 단어는 비슷한 느낌이라 헷갈리므로 영어 자체로의 의미를 생각하면 다음과 같은 차이가 있다. ● prediction : 구체적인 명시 ● forecast : 확률적인 진술 회귀분석을 배우고 있는 입장에서의 Prediction과 Forecast의 의미 차이 주어진 데이터 (X, Y)를 바탕으로 회귀모델을 세운 경우에 모델링한 X의 범위 내에서 새로운 X*값에 대한 Y값을 알고자하는 것을 Prediction 라고 보고,모델링하는 X의 범위를 벗어난 새로운 X의 값에 대한 Y값을 알고자 하는 것을 Forecast 라고 보면 됨. 이유는 벗어난 부분에서 패턴이 변할 지도..
[ 정규분포 N ] [ 표준정규분포 Z] [ 카이제곱분포 ] [ T 분포 (Student's t-distribution)] [ F 분포 ] .
F 분포 F분포란 연속확률분포이면서 표본분포로, 카이제곱분포와 마찬가지로 분산을 추정하고 검정할 때 사용되는 분포이다.그래서 분산의 제곱된 값을 다루기에 +값만 존재하며, 그렇기 때문에 그래프가 비대칭 모양을 하고 있다. F분포와 카이제곱분포의 차이가 있는데, 그것은 카이제곱분포는 한 집단의 분산을 파악할 때 사용하는 반면 F분포는 두 집단의 분산을 비교할 때 사용된다. 그리고 3개 이상 집단의 분산을 비교하는 분산분석(ANOVA, Analysis of Variance) 혹은 실험계획법(DOC, Design of Experiment)이라고 하는데, 이 분산분석에서 F분포는 정말 많이 나온다. 두 개의 독립적인 표본이 각각 정규모집단 N(μ₁, σ₁²)에서 추출한 n₁개의 표본과 N(μ₁₂ σ₂²)에서 추..
T 분포 ※ 정의입에 착착 달라붙게 t분포는 표준정규분포를 '카이제곱분포를 자유도를 나눈 것에 루트씌운 것'으로 나눈 확률변수 t 분포는 종모양으로 t=0에서 좌우대칭을 이룬다. t 분포 모양을 결정하는 것은 자유도이며, 자유도가 커질수록 표준정규분포에 가깝게 된다. ※ 정규분포에서의 추정 어떤 정규분포의 평균이 μ이고 분산이 σ^2일 때, 그 분포에서 n개의 표본을 추출한 것을 정의라고 표기한다.표본평균과 표본분산은 다음과 같다. 이 값들은 실제 평균과 분산에 대한 불평추정량이다.이때, (Cochran's theorem)그리고 V와 Z는 서로 독립임을 증명할 수 있다. 이때 Z에서 σ^2 대신 S^2 으로 대체한 추축량은 다음과 같다. 이 분포는 σ^2를 사용되지 않았으므로, 분산을 모르는 μ를 추정하..
'우도'라는 개념은 가설 검정 또는 회귀분석에서 자주 나오는 개념이다.그래서 이러한 것들을 더 잘 이해하기 위해 우도(likelihood, 가능도)에 대한 이해가 우선적이다. 모수로부터 특정 현상이 관찰되는 것을 확률의 문제라고 한다면, 우도는 확률의 반대 개념이다. 주어진 현상을 가지고 이 현상이 추출될 가능성을 가장 높게 하는(우도가 가장 높은) 모수를 거꾸로 추적하는 방법이 최대우도법이다. 우도비 검정(likelihood ratio test)이란 두 개의 모형의 우도의 비를 계산해서 두 모형의 우도가 유의한 차이가 나는지 비교하는 방법이다. 【관련 링크】 http://dermabae.tistory.com/188
통계적 가설검정 생활 속에서 우리가 입증하고 싶은 주장과 그에 상반된 주장이 있으며 이 두 주장 가운데 하나를 선택할 기준이 필요하다.여기서 '통계적 가설 검정'이란 H0를 기각할 지의 여부를 결정하는 규칙이다. 검정은 기각역(critical region) C를 사용하여 나타낸다. 즉 (x₁, ..., xn) ∈ C이면 H0를 기각한다.(==> 기각역 찾는 것을 목표) 정의1.객관적 근거에 의해 입증하고자하는 주장을 대립가설(alternative hypothesis)이라 하고 H1라고 표기하며, 그 반대되는 주장을 귀무가설(null hypothesis)이라 하고 H0로 표시한다. 정의2.옳은 H0를 기각하는 잘못된 결정을 내리면 제 1종 오류(type 1 error)를 범했다고 하며, 반대로 h0를 채택..
검정력함수 모수의 함수로서 모수의 값에 따른 귀무가설을 기각할 확률에 대한 함수 귀무분포 귀무가설이 참일 때의 검정통계량의 분포 유의확률 (P-value) 귀무가설이 참일 때,검정통계량의 값이 표본으로부터 관측된 값과 같거나 H1을 지지하는 쪽으로 더 치우칠 확률 따라서 주어진 유의수준보다 P-value가 작으면 귀무가설을 기각. 일반적으로 주어진 유의수준에 해당하는 기각역을 제시하기 보다는 유의확울을 제시하는 것이 의사결정자에 따른 유의수준의 차이에 구애받지 않으므로 더 바람직하다고 봄.
1. 편차 (Deviation)관측치가 평균으로 부터 떨어져 있는 정도, 즉 평균과 관측치와의 차이'표준편차(SD)'는 이러한 편차들의 평균값으로 평균으로부터 얼마나 떨어져 있는가에 대한 정보를 제공표준편차 (SD, Standard Deviation)- 관측값들이 집합내에서 평균과 어느정도 떨어져 있는지 알 수 있음- 모표준편차 : - 표본표준편차 : 2. 오차 (Error)예측하기위하여 추정된 값과 실제값의 차이, 즉 예측값이 정확하지 못한 정도모집단에 대해 모르는 경우 표본집단의 평균과 모집단의 평균에는 sampling error가 발생한다. 이때 모집단의 평균과 가까워지기 위해 여러번의 sampling을 통해 각 표본집단의 평균들로 이루어진 표본평균분포를 얻으면 이 분포의 표준편차가 '표준오차(SE..
MSE(mean square error)란?오차(잔차)의 제곱에 대한 평균을 취한 값으로 통계적 추정의 정확성에 대한 질적인 척도로 많이 사용됨- 실제값(관측값)과 추정값과의 차이. 즉 잔차가 얼마인가를 알려주는데 많이 사용되는 척도 (MSE가 작을수록 추정의 정확성이 높아짐)- 점추정에 있어 정확한 선택기준의 중요한 측도(measure)중 하나모수에 대한 좋은 추정량을 찾는데에 있어서 MSE가 가장 작은 것을 찾는게 목표인데, 모든 추정량을 놓고 그들의 MSE를 비교하자니 너무 많아서 추정량들 중에서 편의가 없는 추정량들만을 대상으로 비교하고자 한다. 즉, 불편추정량 중에서 분산이 작은 MSE인 추정량을 찾자.→ 이러한 추정량을 최소분산불편추정량(MVUE: minimum variance unbiased..
순차제곱합(type 1)은 이전에 포함된 항에 하나의 새로운 행이 추가된 모형에서의 제곱합으로, 이 값은 모형 차수에 따라 달라진다.(sas 또는 minitab에서 모형에 요인 또는 예측변수를 입력한 순서에 따라 달라짐)예를 들어 x1,x2,x3 요인 또는 예측 변수가 세 개인 모형의 경우, x1의 순차제곱합은 x1만 들어간 상태에서의 설명되는 분산의 정도가 나오고,x2는 이전에 포함된 항 즉, x1만 있던 상태에서 x2에 의해 설명되는 분산의 정도를 나타낸다. 그리고 x3은 x1과 x2가 있던 상태에서 x3이 추가되었을 경우에 x3이 설명되는 분산의 정도를 나타낸다. 수정제곱합(type 3)은 다른항 모두가 모형에 이미 포함되어있을 때 각 특정 항을 추가함으로써 결정되는 추가적인 제곱합으로 이 값은 모..