본문 바로가기
Statistics

[통계] 선형회귀분석_회귀계수 추정과 T검정

by Hyen4110 2021. 6. 13.

지난 글에서는 선형회귀분석에 대해서 살펴보면서, 회귀식은 어떻게 추정하는지 그리고 그렇게 추정된 회귀모형이 얼마나 설명력이 있는지 결정계수 R2를 가지고 적합도를 판단할 수있음을 보았습니다. 

2021.05.23 - [통계 분석(Statistics)] - [통계 기초] 선형회귀분석(Linear Regression)

 

[통계 기초] 선형회귀분석(Linear Regression)

2021.05.23 - [통계 분석(Statistics)] - [통계 기초] 상관관계(Correlation Coefficient) [통계 기초] 상관관계(Correlation Coefficient) 1. 상관관계(Correlation Coefficient) 1.1 상관관계란? - [의미] 상관..

hyen4110.tistory.com

지난 글에서 회귀식 즉 회귀계수를 추정하였다고 하였는데, 구체적으로 말하면 '점추정(point estimate)'를 하였습니다. 이 글에서는 회귀계수의 점추정과 구간추정에 대해서 대해서 알아보고, 과연 이 추정결과가 신뢰할만한지 유의성검정을 하는 방법에 대해서 알아보겠습니다. 

 

이 글에서는 김성범 교수님의 강의자료를 일부 참고하였습니다. 공부를 하면서 찾아본 강의 중 가장 흐름이 이해가 잘되고 자료가 깔끔하여서 강력히 추천드립니다 :) 

https://www.youtube.com/watch?v=uqfWFIcIF6s 

 

1. 회귀계수의 추정

1.1 점 추정(Point Estimate)

- 점 추정 값은 지난 시간에 구했으므로, 표로 다시한번 정리만 하겠습니다. 

- 단 지난 글에서는 회귀식을 'Y=a+bX'로 표기하였는데요, 좀 더 보편적으로 사용되는 파라미터 표기  'Y=b0+b1X'로 바꾸어 표기하도록 하겠습니다. 혼동이 없으시기를 바랍니다.

회귀계수 점추정
b0 (=a)
b1 (=b)

 

1.2 구간 추정(Interval estimate)

1.2.1 구간 추정의 기본적인 성질

- 구간 추정에 대해서는 이미 앞선 글에서 다루었기 때문에 기본적인 성질만 짚고 넘어가도록 하겠습니다. 

<구간 추정의 기본 형태>

- 위의 식은 일반적인 구간추정의 기본 형태입니다(https://www.youtube.com/watch?v=uqfWFIcIF6s 영상 자료)

- 구간 추정을 구하기 위해서는, 1) 점추정량값 2) 표준편차 값 3) 상수값 총 3가지 값을 알아야합니다.

 

1.2.2 회귀계수의 구간 추정

- 이제 회귀계수로 돌아와서 회귀계수의 구간추정을 하겠습니다.

- 회귀계수는 기울기와 절편 2가지가 있으므로, 2가지에 대한 구간추정이 가능합니다. 

 (※ 일반적으로, 절편이 큰 의미를 갖지 않기 때문에 회귀계수 추정은 기울기에 대해서만 하는 것이 일반적입니다. 이 글에서도 기울기에 대한 추정만 다루겠습니다)

기울기(b1) 절편(b0)

https://www.youtube.com/watch?v=uqfWFIcIF6s

 

2. 회귀계수의 가설검정

2.1 귀무가설과 대립가설

귀무가설(H0) b1 = 0
  = "기울기는 0이다"
대립가설(H1) b1 ≠ 0
  = "기울기는 0이 아니다"
  = "X는 Y에 유의미한 영향이 있다"

- 귀무가설(H0), '기울기가 0이다'가 왜 중요하길래 귀무가설로 세웠을까요? 

: 기울기가 0이라는 것은 'Y변수와 X변수는 관계가 없다는 것을 의미합니다. 선형회귀의 목적을 생각했을때, X가 과연 Y에 영향을 미치는가 아닌가를 알고 싶다는 점에서 볼때 '기울기=0'에 대한 검정은 중요한 검정이라고 할 수 있습니다. 

2.2 검정 통계량

- 귀무가설이 맞다는 전제 아래, 우리가 추정한 값 b1_hat 값과 기울기 값 0 아이에 차이가 얼마나 큰지 그 차이에 대해서 b1의 표준편차를 기준으로 알아보고자 아래식과 같이 검정통계량을 구합니다. 

*검정통계량 식
 
(b1의 표준편차 구하는 식)

- 이때 검정통계량 값이 크다, 추정값과 귀무가설상 기울기의 차이가 크다는 것이므로, 귀무가설을 기각하게 됩니다.

- 검정통계량의 값이 크다 작다의 기준은 설정한 유의수준에 따라 달라집니다. 


2.3 유의수준

- 설정한 유의수준에서의 t(critical value)를 찾아서 위에서 구한 검정 통계량과 비교합니다. 

- 이때 T-table에서 기준이되는 df = N-2입니다

 

2.4 결론

1) 귀무가설이 채택된다면, 회귀계수의 기울기값 =0이 되며 "변수 X는 Y와 관계가 없다"고 결론을 내릴 수 있습니다. 

2) 반대로, 대립가설이 채택된다면, "변수 X는 Y와 유의미한 관계가 있다"고 결론을 내릴 수 있습니다.

just '유의미하다??' 끝인가??

- 위에서 회귀계수를 추정해서 기울기 추정량을 구하고 유의성 검정을 했는데,
그 결과가 just '유의미하다(?)'는 결론 만 나온다니 약간은 허무해보입니다.

- 하지만 회귀계수 기울기의 특성을 생각해보면,
회귀계수는 표본의 측정단위에 의존하는 값으로, 크고 작음이 중요하지 않습니다. (지난글 참고)
중요한 것은 probability(유의성) 입니다.

그 유의성을 따지는 검정을 방금  마치고 '유의미하다'는 결론을 낸 것이죠.

(지난 글:2021.05.23 - [통계 분석(Statistics)] - [통계] 선형회귀분석(Linear Regression)

 

*공부에 도움이 되시길 바라며, 선형회귀계수 검정통계량까지 구하는 과정을 엑셀파일 예제로 첨부하였습니다. 자유롭게 사용하시고 댓글만 남겨주세요 :) 

선형회귀_회귀계수 추정,검정.xlsx
0.01MB

 

 

댓글