1.분산분석이란?
- 분산 분석(Analysis of variance, ANOVA, 또는 변량 분석)은 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법입니다(출처: 위키피디아)
2. 일원분산분석(One-way ANOVA)
- 일원 배치법(One-way layout)은 특성값에 대한 한 종류의 변수의 영향을 조사할 때 사용하는 분산 분석법입니다. 변수의 각 수준이 처리(treatment)가 되며 2개의 처리 효과를 비교할 때는 t-검정을, 3개 이상의 처리 효과를 비교할 때는 ANOVA를 사용합니다.
- 즉, 일원 분산분석은 3개 이상의 모평균 간 차이가있는지를 검정하는 방법입니다.
2.1 귀무가설과 대립가설
H0(귀무가설) | 모평균들 간에는 차이가 없다 (μ1=μ2=μ3 .... ) |
Ha(대립가설) | 적어도 두 모평균은 다르다. |
2.2 독립변수와 종속변수
1) 독립변수
- 일원분산분석에서의 독립변수에 대한 이해를 돕기 위해서 예시로 들어보겠습니다.
예1) 각 집단에 따라서 전체 자산에서 주식 소유 비중의 차이를 보고자 할때, 각 집단을 독립변수라고 한다.
예2) 5가지 학습방법에 따라 수학점수의 평균에 차이가 나는지 보려는 경우, 학습방법을 독립변수라고 한다.
2) 종속변수
예1) 집단에 따라서 주식 소유의 비중의 차이를 보고자 할때, '각 집단 별 주식 소유 비중'이 종속 변수가 된다.
예2) 학습 방법에 따라 수학점수의 평균차이가 나는타나는지 보는 경우, 5가지 학습 방법별 수학점수의 평균이 종속변수가 된다.
2.3 변동량 계산(SST, SSW, SSB)
- 이전 글에서 회귀모형의 설명력에 관하여 살펴볼때 총변동량(SST)를 모형으로 설명가능한 변동량(SSR)과 그렇지 않고 에러에 의해서 설명가능한 변동량(SSE)로 나누어서 결정계수(R2)값을 구했습니다.
- 분산분석에서도 같은 개념의 용어가 사용되는데, 표현 방법이 조금 달라 아래와 표로 정리해보았습니다.
선형회귀 | 분산분석 | 수식 | 의미 | |
총 변동 | SST | SST | 각 개인 점수와 전체평균(grand mean) 차이 | |
설명된 변동 | SSR | SSB (Between groups) | 집단 간 변량 | |
설명되지 않은 변동(오차) | SSE | SSW (within groups) | 집단 내 변량 |
2.4 F-test
[ANOVA Table]
df(자유도) | SS(Sum of Square) | 분산 | F값 | |
그룹 간(설명된 변동) | g-1 | SSB | MSB = SSB/(g-1) | MSB/MSW |
그룹 내(오차) | N-g | SSW | MSW = SSW/(n-g) | |
총 합 | N-1 | SST | ||
- g: 그룹의 수/ N: 데이터의 수 |
1) 검정통계량(F*)을 구한다.
-> F* = MSB/MSW
2) F(critical value)값을 구한다.
-> 위의 F값은 F(g-1, N-g)분포를 따르므로, 해당 분포의 critical value를 table에서 찾는다.
3) 결과 해석
i) 귀무가설 채택 : 모평균들 간에는 차이가 없다 (μ1=μ2=μ3 .... )
ii) 대립가설 채택 : 적어도 두 모평균은 다르다.
'Statistics' 카테고리의 다른 글
[통계] 다중선형회귀(Multivariable Linear Regression) (0) | 2021.06.13 |
---|---|
[통계] 선형회귀분석_결정계수와 F검정 (6) | 2021.06.13 |
[통계] 선형회귀분석_회귀계수 추정과 T검정 (3) | 2021.06.13 |
[통계] 선형회귀분석(Linear Regression) (2) | 2021.05.23 |
[통계] 상관관계(Correlation Coefficient) (6) | 2021.05.23 |
댓글