일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- proc contents
- groupe_by()
- dplyr
- 대칭형 알고리즘
- sample_n()
- AES
- filter()
- samp;e_frac()
- select()
- summarize()
- distinct()
- mutate()
- arrange()
- Today
- Total
Gae Ko's Blog
[SAS] 두 집단의 분포 비교하기 (T검정) 본문
두 집단의 분포 비교하기 (T검정)
T-Test의 조건 : 정규성 & 등분산성
>> SAS code
1. 데이터 가져오기
PROC EXPORT
2. 데이터 셋 내의 전체 속성 보기
PROC CONTENTS
변수들에 대해서 알 수 있는 프로시저
(결과 중 일부분)
여기서 예제 데이터는 지역(region)에 따른 사교육비(edu)에 대한 데이터
지역은 각 지역마다 숫자로 표시 (ex. 11번=서울, 39번=대전)
// PROC CONTENTS 란?
See concepts for the CONTENTS Statement.
3. T 검정
PROC TTEST 사용 (PROC TTEST : http://gaeko-security-hack.tistory.com/71?category=722055)
대전과 서울의 사교육비의 평균 비교하기
>> output
>> 결과 해석
정규성과 등분산성을 확인하여아한다.
1) 정규성 검토 : 두 지역에 대한 distridution of edu 라는 그래프를 보자.
사실 이 예제의 데이터는 정규성 만족을 못하여 ttest의 결과를 사용할 수 없다.
2) 등분산성 검토 : 표4는 등분산검정을 해준 결과표이다.
H0 : 두 집단의 분산이 같다.
H1 : 두 집단의 분산은 다르다.
위와 같은 가설에 대한 결과로 저 예제의 결과를 보면 유의수준 0.01에서 두 집단의 분산은 같다는 귀무가설을 기각하여 등분산성을 만족하지 못하다는 결론이 나왔다.
3) t-test결과 : t-test에 대한 결과는 표3에 나와있다. (정규성이 만족된다는 가정하에 )
결과는 Pooled와 Satterthwaite 이렇게 두 가지로 나눠진다.
등분산성이 만족되는 경우엔 Pooled결과를, 그렇지 않은 경우엔 Satterthwaite결과를 보면 된다.
예제에서 등분산성 만족을 못했다고 하므로 Satterthwaite결과를 보자. 유의수준 0.01에서 귀무가설을 기각한다.
즉, 두 집단간의 평균에 차이가 있다(통계적으로 유의하다)라는 결론을 내릴 수 있다.
(표1과 표2는 각 지역에 따른 사교육비에 대한 기초통계량을 구해준 표이다. )
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////
글로 잘 풀어낼 줄 알아야한다. (by 신지은 교수님)
1) 두 집단의 정규성 검토
QQ PLOT을 이용하여 각 집단의 정규성을 검토한 결과가 다음 <그림1>과 같다. 11과 39번 지역 모두 정규성을 만족하지 못하는 것으로 보인다. 이는 사교육비가 0인 경우가 많이 나타나는 결과로 자교 분석 시 사교육비가 0인 경우와 그렇지 않은 경우를 나누어 분석해 볼 수 있다.
( 참고자료로 정규성검정 결과도 첨부할 수 있음)
2) 두 집단의 등분산성 검토
행정구역이 11인 경우는 오른쪽으로 꼬리가 길어진 분포로 약 2000 이상이 경우가 이상치로 약 40000이상인 경우까지도 나타다고 있다.
행정구역이 39인 경우도 마찬가지로 오른쪽으로 꼬리가 길어진 분포로 나타나지만 자료이 최대치는 약 3000이하로 예상할 수 있으며 약 1500 이상이 이상치로 나타나고 있다.
두 행정구역의 분포는 모두 오른쪽으로 꼬리가 길어졌으나 11구역이 39구역보다 오른쪽으로 꼬리가 더 길어진 것을 확인되며 등분산이 만족되지 않는 것으로 보여진다.
참고) 등분산성 검정 결과 : 유의수준 5%에서 등분산을 만족하지 못함.
Equality of Variances | ||||
Method | Num DF | Den DF | F Value | Pr > F |
Folded F | 11184 | 3041 | 2.81 | <.0001 |
'통계 > SAS ' 카테고리의 다른 글
[SAS] 다중선형회귀모형 유의성 검정 (0) | 2018.03.18 |
---|---|
[SAS] 구분점 (0) | 2017.12.17 |
[SAS] PROC IMPORT& PROC EXPORT (데이터 가져오기&데이터 내보내기) (0) | 2017.12.16 |
[SAS] PROC GLM (0) | 2017.11.27 |
[SAS] 분산분석하고 싶어. PROC ANOVA (0) | 2017.11.17 |