Gae Ko's Blog

[SAS] 두 집단의 분포 비교하기 (T검정) 본문

통계/SAS

[SAS] 두 집단의 분포 비교하기 (T검정)

Gae Ko 2017. 12. 16. 08:40

두 집단의 분포 비교하기 (T검정)

T-Test의 조건 : 정규성 & 등분산성 


>> SAS code 

1. 데이터 가져오기 

PROC EXPORT


2. 데이터 셋 내의 전체 속성 보기

PROC CONTENTS


변수들에 대해서 알 수 있는 프로시저









(결과 중 일부분)


여기서 예제 데이터는 지역(region)에 따른 사교육비(edu)에 대한 데이터  

지역은 각 지역마다 숫자로 표시 (ex. 11번=서울, 39번=대전)


// PROC CONTENTS 란?

See concepts for the CONTENTS Statement. 

(SAS 도움말 : http://documentation.sas.com/?docsetId=proc&docsetVersion=9.4&docsetTarget=n0v6kjzws1u302n1u3pt7rprd9bj.htm&locale=ko)


3. T 검정

PROC TTEST 사용 (PROC TTEST : http://gaeko-security-hack.tistory.com/71?category=722055)

대전과 서울의 사교육비의 평균 비교하기


 

>> output


>> 결과 해석

정규성과 등분산성을 확인하여아한다.


1) 정규성 검토 : 두 지역에 대한 distridution of edu 라는 그래프를 보자. 

사실 이 예제의 데이터는 정규성 만족을 못하여 ttest의 결과를 사용할 수 없다.


2) 등분산성 검토 : 표4는 등분산검정을 해준 결과표이다. 

H0 : 두 집단의 분산이 같다.    

H1 : 두 집단의 분산은 다르다.

위와 같은 가설에 대한 결과로 저 예제의 결과를 보면 유의수준 0.01에서 두 집단의 분산은 같다는 귀무가설을 기각하여 등분산성을 만족하지 못하다는 결론이 나왔다. 


3) t-test결과 : t-test에 대한 결과는 표3에 나와있다. (정규성이 만족된다는 가정하에 )

결과는 Pooled와 Satterthwaite 이렇게 두 가지로 나눠진다.

등분산성이 만족되는 경우엔 Pooled결과를, 그렇지 않은 경우엔 Satterthwaite결과를 보면 된다.

예제에서 등분산성 만족을 못했다고 하므로 Satterthwaite결과를 보자. 유의수준 0.01에서 귀무가설을 기각한다.

즉, 두 집단간의 평균에 차이가 있다(통계적으로 유의하다)라는 결론을 내릴 수 있다.

(표1과 표2는 각 지역에 따른 사교육비에 대한 기초통계량을 구해준 표이다. )


/////////////////////////////////////////////////////////////////////////////////////////////////////////////////

글로 잘 풀어낼 줄 알아야한다. (by 신지은 교수님)


1) 두 집단의 정규성 검토

QQ PLOT을 이용하여 각 집단의 정규성을 검토한 결과가 다음 <그림1>과 같다. 1139번 지역 모두 정규성을 만족하지 못하는 것으로 보인다. 이는 사교육비가 0인 경우가 많이 나타나는 결과로 자교 분석 시 사교육비가 0인 경우와 그렇지 않은 경우를 나누어 분석해 볼 수 있다. 

( 참고자료로 정규성검정 결과도 첨부할 수 있음)


2) 두 집단의 등분산성 검토

행정구역이 11인 경우는 오른쪽으로 꼬리가 길어진 분포로 약 2000 이상이 경우가 이상치로 약 40000이상인 경우까지도 나타다고 있다.

행정구역이 39인 경우도 마찬가지로 오른쪽으로 꼬리가 길어진 분포로 나타나지만 자료이 최대치는 약 3000이하로 예상할 수 있으며 약 1500 이상이 이상치로 나타나고 있다.

두 행정구역의 분포는 모두 오른쪽으로 꼬리가 길어졌으나 11구역이 39구역보다 오른쪽으로 꼬리가 더 길어진 것을 확인되며 등분산이 만족되지 않는 것으로 보여진다.

 참고) 등분산성 검정 결과 : 유의수준 5%에서 등분산을 만족하지 못함.

Equality of Variances

Method

Num DF

Den DF

F Value

Pr > F

Folded F

11184

3041

2.81

<.0001