Gae Ko's Blog

[SAS] 다중선형회귀모형 유의성 검정 본문

통계/SAS

[SAS] 다중선형회귀모형 유의성 검정

Gae Ko 2018. 3. 18. 03:35

예제(9.2)

종합체의 점도(y)와 두 가지의 공정변수, 반응온도(x1)와 촉매공급률(x2)에 대한 16개의 관측값들이 있다. 점도는 이 두 변수와 선형 관계가 있다고 판단된다. 회귀의 유의성을 검증하라.


적합시킬 모형 : y = β0 + β₁x₁ + β₂x₂ + ε


일단 x1와 x2의 관측값을 각자 y와 plot하여 분포를 살펴보자. 


 x1은 y와 뭔가 선형성이 보인다. 


 x2는 y와 아무런 관련이 없는 거 같아 보인다. 


상관계수를 구해보니 x1와의 상관계수는 0.95293으로 매우 높은 반면 x2와의 상관계수는 0.27167로 매우 낮다. 위에서 분포를 보고 추측한 결과와 매우 잘 맞는거 같다. 


이제  y = β0 + β₁x₁ + β₂x₂ + ε 모형으로 회귀분석을 해보자. 


Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 2 44157 22079 82.50 <.0001
Error 13 3478.85096 267.60392    
Corrected Total 15 47636      

위 표는 유의성 검정 결과 표로, F통계량을 사용하여 유의성을 검정한 결과

Root MSE 16.35860 R-Square 0.9270
Dependent Mean 2348.56250 Adj R-Sq 0.9157
Coeff Var 0.69654    

MSE와 R-squre값을 보여준다. 
// R-squre값이 1에 가까울수록 모형의 적합도가 높다는 의미
// R-squre은 총 변동중 회귀모형으로 설명되는 변동의 크기에 대한 비중

Parameter Estimates
Variable DF Parameter
Estimate
Standard
Error
t Value Pr > |t|
Intercept 1 1566.07777 61.59184 25.43 <.0001
x1 1 7.62129 0.61843 12.32 <.0001
x2 1 8.58485 2.43868 3.52 0.0038

개별 회귀변수에 대한 추정값 그리고 개별 회귀변수 검정 결과


분석 결과를 보니 p-value가 <0.001로 유의수준 0.05에서 유의하다는 결과가 나왔고 조정된 R-square값이 0.9이상으로 높은 값이 나왔다. 이로써 모형의 유의성과 적합도가 높다고 판단할 수 있다. 그리고 개별 회귀변수에 대한 검정결과로 유의수준 0.05에서 유의하다는 결과가 나왔다.


다음은  y = β0 + β₁x₁ + ε 모형으로 회귀분석 결과이다.



Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 1 40841 40841 84.14 <.0001
Error 14 6795.09503 485.36393    
Corrected Total 15 47636      


Root MSE 22.03098 R-Square 0.8574
Dependent Mean 2348.56250 Adj R-Sq 0.8472
Coeff Var 0.93806    


Parameter Estimates
Variable DF Parameter
Estimate
Standard
Error
t Value Pr > |t|
Intercept 1 1652.39550 76.09226 21.72 <.0001
x1 1 7.63969 0.83284 9.17 <.0001


분석결과를 보니 plot에서 알 수 있었듯이 x1은 y에 영향을 끼치는 중요한 변수임을 보여주고 있다. 


다음은  y = β0 +  β₂x₂ + ε 모형으로 회귀분석 결과이다.


Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 1 3515.66806 3515.66806 1.12 0.3088
Error 14 44120 3151.44782    
Corrected Total 15 47636      


Root MSE 56.13776 R-Square 0.0738
Dependent Mean 2348.56250 Adj R-Sq 0.0076
Coeff Var 2.39030    


Parameter Estimates
Variable DF Parameter
Estimate
Standard
Error
t Value Pr > |t|
Intercept 1 2257.96389 86.91790 25.98 <.0001
x2 1 8.83889 8.36852 1.06 0.3088



x2는 y를 설명하기엔 무리임을 보여주고 있다. 하지만  y = β0 + β₁x₁ + β₂x₂ + ε 모형 분석 결과를 생각하면 x2가 아무런 영향을 끼치지 않는다고 볼 수 없다.


이처럼 x2 혼자서는 관심변수 y를 설명하기엔 부족한데 (x2와 다른 변수)x1이 함께 있으면 설명력이 증가되는 경우가 있다. 


SAS 코드는 다음과 같다.


// R-square에 대하여 ☞ http://gaeko-security-hack.tistory.com/32?category=722178