일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- distinct()
- groupe_by()
- proc contents
- sample_n()
- select()
- 대칭형 알고리즘
- AES
- mutate()
- arrange()
- dplyr
- summarize()
- samp;e_frac()
- filter()
- Today
- Total
Gae Ko's Blog
[SAS] 다중선형회귀모형 유의성 검정 본문
예제(9.2)
종합체의 점도(y)와 두 가지의 공정변수, 반응온도(x1)와 촉매공급률(x2)에 대한 16개의 관측값들이 있다. 점도는 이 두 변수와 선형 관계가 있다고 판단된다. 회귀의 유의성을 검증하라.
적합시킬 모형 : y = β0 + β₁x₁ + β₂x₂ + ε
일단 x1와 x2의 관측값을 각자 y와 plot하여 분포를 살펴보자.
x1은 y와 뭔가 선형성이 보인다.
x2는 y와 아무런 관련이 없는 거 같아 보인다.
상관계수를 구해보니 x1와의 상관계수는 0.95293으로 매우 높은 반면 x2와의 상관계수는 0.27167로 매우 낮다. 위에서 분포를 보고 추측한 결과와 매우 잘 맞는거 같다.
이제 y = β0 + β₁x₁ + β₂x₂ + ε 모형으로 회귀분석을 해보자.
Analysis of Variance | |||||
---|---|---|---|---|---|
Source | DF | Sum of Squares |
Mean Square |
F Value | Pr > F |
Model | 2 | 44157 | 22079 | 82.50 | <.0001 |
Error | 13 | 3478.85096 | 267.60392 | ||
Corrected Total | 15 | 47636 |
Root MSE | 16.35860 | R-Square | 0.9270 |
---|---|---|---|
Dependent Mean | 2348.56250 | Adj R-Sq | 0.9157 |
Coeff Var | 0.69654 |
Parameter Estimates | |||||
---|---|---|---|---|---|
Variable | DF | Parameter Estimate |
Standard Error |
t Value | Pr > |t| |
Intercept | 1 | 1566.07777 | 61.59184 | 25.43 | <.0001 |
x1 | 1 | 7.62129 | 0.61843 | 12.32 | <.0001 |
x2 | 1 | 8.58485 | 2.43868 | 3.52 | 0.0038 |
분석 결과를 보니 p-value가 <0.001로 유의수준 0.05에서 유의하다는 결과가 나왔고 조정된 R-square값이 0.9이상으로 높은 값이 나왔다. 이로써 모형의 유의성과 적합도가 높다고 판단할 수 있다. 그리고 개별 회귀변수에 대한 검정결과로 유의수준 0.05에서 유의하다는 결과가 나왔다.
다음은 y = β0 + β₁x₁ + ε 모형으로 회귀분석 결과이다.
Analysis of Variance | |||||
---|---|---|---|---|---|
Source | DF | Sum of Squares |
Mean Square |
F Value | Pr > F |
Model | 1 | 40841 | 40841 | 84.14 | <.0001 |
Error | 14 | 6795.09503 | 485.36393 | ||
Corrected Total | 15 | 47636 |
Root MSE | 22.03098 | R-Square | 0.8574 |
---|---|---|---|
Dependent Mean | 2348.56250 | Adj R-Sq | 0.8472 |
Coeff Var | 0.93806 |
Parameter Estimates | |||||
---|---|---|---|---|---|
Variable | DF | Parameter Estimate |
Standard Error |
t Value | Pr > |t| |
Intercept | 1 | 1652.39550 | 76.09226 | 21.72 | <.0001 |
x1 | 1 | 7.63969 | 0.83284 | 9.17 | <.0001 |
분석결과를 보니 plot에서 알 수 있었듯이 x1은 y에 영향을 끼치는 중요한 변수임을 보여주고 있다.
다음은 y = β0 + β₂x₂ + ε 모형으로 회귀분석 결과이다.
Analysis of Variance | |||||
---|---|---|---|---|---|
Source | DF | Sum of Squares |
Mean Square |
F Value | Pr > F |
Model | 1 | 3515.66806 | 3515.66806 | 1.12 | 0.3088 |
Error | 14 | 44120 | 3151.44782 | ||
Corrected Total | 15 | 47636 |
Root MSE | 56.13776 | R-Square | 0.0738 |
---|---|---|---|
Dependent Mean | 2348.56250 | Adj R-Sq | 0.0076 |
Coeff Var | 2.39030 |
Parameter Estimates | |||||
---|---|---|---|---|---|
Variable | DF | Parameter Estimate |
Standard Error |
t Value | Pr > |t| |
Intercept | 1 | 2257.96389 | 86.91790 | 25.98 | <.0001 |
x2 | 1 | 8.83889 | 8.36852 | 1.06 | 0.3088 |
x2는 y를 설명하기엔 무리임을 보여주고 있다. 하지만 y = β0 + β₁x₁ + β₂x₂ + ε 모형 분석 결과를 생각하면 x2가 아무런 영향을 끼치지 않는다고 볼 수 없다.
이처럼 x2 혼자서는 관심변수 y를 설명하기엔 부족한데 (x2와 다른 변수)x1이 함께 있으면 설명력이 증가되는 경우가 있다.
SAS 코드는 다음과 같다.
// R-square에 대하여 ☞ http://gaeko-security-hack.tistory.com/32?category=722178
'통계 > SAS ' 카테고리의 다른 글
[SAS] 다중선형회귀모형 유의성 검정 (2) (0) | 2018.03.18 |
---|---|
[SAS] 구분점 (0) | 2017.12.17 |
[SAS] 두 집단의 분포 비교하기 (T검정) (0) | 2017.12.16 |
[SAS] PROC IMPORT& PROC EXPORT (데이터 가져오기&데이터 내보내기) (0) | 2017.12.16 |
[SAS] PROC GLM (0) | 2017.11.27 |