본문 바로가기
Statistics

[통계] 다중선형회귀(Multivariable Linear Regression)

by Hyen4110 2021. 6. 13.

- 이전 글 -

1) 2021.06.13 - [통계 분석(Statistics)] - [통계]선형회귀분석_회귀계수의 추정과 T검정

2) 2021.06.13 - [통계 분석(Statistics)] - [통계] 선형회귀분석_결정계수와 분산분석(ANOVA)

 

앞의 글들에서는 단순선형회귀, 즉 독립변수가 1개인 경우만 살펴보았습니다. 하지만 일반적으로 독립변수가 여러개인 상황이 일반적이죠. 오늘 글에서는 독립변수가 2개 이상일 경우, 어떻게 회귀계수를 추정하고 검정하는지 살펴보도록하겠습니다.

 

1. 다중회귀분석

1.1 독립변수가 2개인 경우

1) 회귀계수의 점추정

 

2) 회귀계수의 표준오차

 

- X의 변량회귀계수의 표준오차 서로 반비례관계에 있음을 확인할 수 있다. 

= X의 변량을 크게 함으로써, 회귀계수의 표준오차를 감소시킬 수 있다.

= X의 변량이 작다면 회귀계수의 표준오차는 증가한다.

 

 

 

 

2. t검정

-

3.  F검정(분산분석)

<ANOVA TABLE>

Source SS df(자유도) MS F P
Model
Error
SSR p MSR = SSR/p F* = MSR/MSE
~F(p,n-(p+1))
 
SSE n-(p+1) MSE = SSE/(n-(p+1)    
Total SST n-1 Sy² = SST/(n-1)    

 

4. 다중회귀모형의 유효성

- 최소 하나 이상의 설명변수가 유의미하다는것이 과연 중요한 의미일까요?

- 결론적으로 , 만일 최소 하나 이상의 회계 계수 값이 0이 아니라면, 회귀모형은 유효성이 있다고 판단합니다. 

 

5. 변수 선택의 필요성

- 종속변수에 유의미한 영향을 끼칠것으로 예상하는 많은 독립변수들이 있지만, 사실 그 중에서 유의미한 영향을 끼치는 변수는 많지 않습니다. 

- 이때 변수 선택을 통해서 많은 예측 변수들 중에서 종속변수에 유의미한 영향을 미치는 중요한 소수의 예측변수를 찾아내는 것이 목표입니다.

5.1 전진선택법(Forward Selection)

- 통계적으로 유의성이 높은 변수부터 추가합니다.

- 통계적으로 유의성이 높은 변수는 probability값으로 결정합니다.

 

5.2 후진선택법(Backward Selection)

- 통계적으로 유의성이 낮은 변수부터 추가합니다.

- 통계적으로 유의성이 낮은 변수는 probability값으로 결정합니다. 

 

 

6. 다중공선성(Multicolinearity) 체크

6.1 다중공선성 이란?

다중공선성이란 독립변수들이 서로 상관관계를 가질 때 존재합니다.

- 다중공선성의 부정적 효과는 상관관계를 가지고 있는 독립변수들의 회귀계수들이 큰 표본 오차를 가지는 경향이 있다는 것입니다. 

 

6.2 분상팽창지수(Variation Index Factor, VIF)

- Xk(k번째 독립변수)를 제외한 나머지 독립변수로 회귀모형을 만들어 Rk²값을 계산하고 VIF(k)를 계산합니다.

- VIF(k)가 크다는 것은 k를 제외한 나머지 독립변수로 이루어진 회귀식이 종속변수인 Xk에 대하여 높은 설명력을 가지고 있음을 의미합니다.

- 일반적으로 Rk²값이 0.90 이상이면 다중공선성 문제를 발생시킨다고 판단합니다. 

   = VIF(k) = 1/(1-Rk²)이므로, VIF가 10 이상이면 다중공선성 문제를 발생시킨다고 판단한다는 말과 같은 말입니다.

 

 

6.3 다중공선성 문제 해결

- 사실 다중공선성은 실제로 모든 다중회귀모형에서 존재할만큼 일반적인 현상입니다. 독립변수들 간에 상관관계가 전혀 없는 두 변수를 찾기는 어렵기 때문입니다. 

- 그렇다면, 독립변수 간의 상관관계(다중공선성)가 얼마나 높아야 문제가 되는 것일까요? 그것을 판단하는 명확한 기준이 존재할까요? 사실은 답은 없습니다.

 

- 하지만, 일반적으로 다중공선성 문제가 존재함을 알려주는 좋은 지표가 있습니다.

 -> F통계량은 크지만, t통계량은 작은 경우

 1) 'F통계량은 크다' : 회귀모형은 유효하다

 2) 't통계량이 작다' : 회귀계수 b(i)의 유의성이 떨어져 정확히 추정되지 못하는 문제가 발생

 => 변수들간 서로 설명력을 빼앗아 간 것일 수 있음

 

댓글