지난 글에서는 선형회귀분석에 대해서 살펴보면서, 회귀식은 어떻게 추정하는지 그리고 그렇게 추정된 회귀모형이 얼마나 설명력이 있는지 결정계수 R2를 가지고 적합도를 판단할 수있음을 보았습니다.
2021.05.23 - [통계 분석(Statistics)] - [통계 기초] 선형회귀분석(Linear Regression)
지난 글에서 회귀식 즉 회귀계수를 추정하였다고 하였는데, 구체적으로 말하면 '점추정(point estimate)'를 하였습니다. 이 글에서는 회귀계수의 점추정과 구간추정에 대해서 대해서 알아보고, 과연 이 추정결과가 신뢰할만한지 유의성검정을 하는 방법에 대해서 알아보겠습니다.
이 글에서는 김성범 교수님의 강의자료를 일부 참고하였습니다. 공부를 하면서 찾아본 강의 중 가장 흐름이 이해가 잘되고 자료가 깔끔하여서 강력히 추천드립니다 :)
https://www.youtube.com/watch?v=uqfWFIcIF6s
1. 회귀계수의 추정
1.1 점 추정(Point Estimate)
- 점 추정 값은 지난 시간에 구했으므로, 표로 다시한번 정리만 하겠습니다.
- 단 지난 글에서는 회귀식을 'Y=a+bX'로 표기하였는데요, 좀 더 보편적으로 사용되는 파라미터 표기 'Y=b0+b1X'로 바꾸어 표기하도록 하겠습니다. 혼동이 없으시기를 바랍니다.
회귀계수 | 점추정 |
b0 (=a) | |
b1 (=b) |
1.2 구간 추정(Interval estimate)
1.2.1 구간 추정의 기본적인 성질
- 구간 추정에 대해서는 이미 앞선 글에서 다루었기 때문에 기본적인 성질만 짚고 넘어가도록 하겠습니다.
<구간 추정의 기본 형태> |
- 위의 식은 일반적인 구간추정의 기본 형태입니다(https://www.youtube.com/watch?v=uqfWFIcIF6s 영상 자료)
- 구간 추정을 구하기 위해서는, 1) 점추정량값 2) 표준편차 값 3) 상수값 총 3가지 값을 알아야합니다.
1.2.2 회귀계수의 구간 추정
- 이제 회귀계수로 돌아와서 회귀계수의 구간추정을 하겠습니다.
- 회귀계수는 기울기와 절편 2가지가 있으므로, 2가지에 대한 구간추정이 가능합니다.
(※ 일반적으로, 절편이 큰 의미를 갖지 않기 때문에 회귀계수 추정은 기울기에 대해서만 하는 것이 일반적입니다. 이 글에서도 기울기에 대한 추정만 다루겠습니다)
기울기(b1) | 절편(b0) |
https://www.youtube.com/watch?v=uqfWFIcIF6s
2. 회귀계수의 가설검정
2.1 귀무가설과 대립가설
귀무가설(H0) | b1 = 0 = "기울기는 0이다" |
대립가설(H1) | b1 ≠ 0 = "기울기는 0이 아니다" = "X는 Y에 유의미한 영향이 있다" |
- 귀무가설(H0), '기울기가 0이다'가 왜 중요하길래 귀무가설로 세웠을까요?
: 기울기가 0이라는 것은 'Y변수와 X변수는 관계가 없다는 것을 의미합니다. 선형회귀의 목적을 생각했을때, X가 과연 Y에 영향을 미치는가 아닌가를 알고 싶다는 점에서 볼때 '기울기=0'에 대한 검정은 중요한 검정이라고 할 수 있습니다.
2.2 검정 통계량
- 귀무가설이 맞다는 전제 아래, 우리가 추정한 값 b1_hat 값과 기울기 값 0 아이에 차이가 얼마나 큰지 그 차이에 대해서 b1의 표준편차를 기준으로 알아보고자 아래식과 같이 검정통계량을 구합니다.
*검정통계량 식 |
(b1의 표준편차 구하는 식) |
- 이때 검정통계량 값이 크다면, 추정값과 귀무가설상 기울기의 차이가 크다는 것이므로, 귀무가설을 기각하게 됩니다.
- 검정통계량의 값이 크다 작다의 기준은 설정한 유의수준에 따라 달라집니다.
2.3 유의수준
- 설정한 유의수준에서의 t(critical value)를 찾아서 위에서 구한 검정 통계량과 비교합니다.
- 이때 T-table에서 기준이되는 df = N-2입니다
2.4 결론
1) 귀무가설이 채택된다면, 회귀계수의 기울기값 =0이 되며 "변수 X는 Y와 관계가 없다"고 결론을 내릴 수 있습니다.
2) 반대로, 대립가설이 채택된다면, "변수 X는 Y와 유의미한 관계가 있다"고 결론을 내릴 수 있습니다.
just '유의미하다??' 끝인가?? - 위에서 회귀계수를 추정해서 기울기 추정량을 구하고 유의성 검정을 했는데, 그 결과가 just '유의미하다(?)'는 결론 만 나온다니 약간은 허무해보입니다. - 하지만 회귀계수 기울기의 특성을 생각해보면, 회귀계수는 표본의 측정단위에 의존하는 값으로, 크고 작음이 중요하지 않습니다. (지난글 참고) 중요한 것은 probability(유의성) 입니다. 그 유의성을 따지는 검정을 방금 마치고 '유의미하다'는 결론을 낸 것이죠. (지난 글:2021.05.23 - [통계 분석(Statistics)] - [통계] 선형회귀분석(Linear Regression) |
*공부에 도움이 되시길 바라며, 선형회귀계수 검정통계량까지 구하는 과정을 엑셀파일 예제로 첨부하였습니다. 자유롭게 사용하시고 댓글만 남겨주세요 :)
'Statistics' 카테고리의 다른 글
[통계] 다중선형회귀(Multivariable Linear Regression) (0) | 2021.06.13 |
---|---|
[통계] 선형회귀분석_결정계수와 F검정 (6) | 2021.06.13 |
[통계] 선형회귀분석(Linear Regression) (2) | 2021.05.23 |
[통계] 상관관계(Correlation Coefficient) (6) | 2021.05.23 |
[통계] 카이제곱 검정(Chi-squre test) (1) | 2021.04.27 |
댓글