본문 바로가기
Statistics

[통계] 분산분석(ANOVA)

by Hyen4110 2021. 6. 13.

1.분산분석이란?

- 분산 분석(Analysis of variance, ANOVA, 또는 변량 분석)은 통계학에서 두 개 이상 다수의 집단을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법입니다(출처: 위키피디아)

2. 일원분산분석(One-way ANOVA)

- 일원 배치법(One-way layout)은 특성값에 대한 한 종류의 변수의 영향을 조사할 때 사용하는 분산 분석법입니다. 변수의 각 수준이 처리(treatment)가 되며 2개의 처리 효과를 비교할 때는 t-검정을, 3개 이상의 처리 효과를 비교할 때는 ANOVA를 사용합니다.

- 즉, 일원 분산분석3개 이상의 모평균 간 차이가있는지를 검정하는 방법입니다.

2.1 귀무가설과 대립가설

H0(귀무가설) 모평균들 간에는 차이가 없다 (μ123 .... )
Ha(대립가설) 적어도 두 모평균은 다르다.

 

2.2 독립변수와 종속변수

1) 독립변수

- 일원분산분석에서의 독립변수에 대한 이해를 돕기 위해서 예시로 들어보겠습니다. 

예1) 각 집단에 따라서 전체 자산에서 주식 소유 비중의 차이를 보고자 할때, 각 집단을 독립변수라고 한다.

예2) 5가지 학습방법에 따라 수학점수의 평균에 차이가 나는지 보려는 경우, 학습방법을 독립변수라고 한다.

 

2) 종속변수

예1) 집단에 따라서 주식 소유의 비중의 차이를 보고자 할때, '각 집단 별 주식 소유 비중'이 종속 변수가 된다.

예2) 학습 방법에 따라 수학점수의 평균차이가 나는타나는지 보는 경우, 5가지 학습 방법별 수학점수의 평균이 종속변수가 된다.

 

2.3 변동량 계산(SST, SSW, SSB)

- 이전 글에서 회귀모형의 설명력에 관하여 살펴볼때 총변동량(SST)를 모형으로 설명가능한 변동량(SSR)과 그렇지 않고 에러에 의해서 설명가능한 변동량(SSE)로 나누어서 결정계수(R2)값을 구했습니다.

 

- 분산분석에서도 같은 개념의 용어가 사용되는데, 표현 방법이 조금 달라 아래와 표로 정리해보았습니다. 

  선형회귀 분산분석  수식 의미
총 변동 SST  SST
각 개인 점수와 전체평균(grand mean) 차이
설명된 변동 SSR SSB (Between groups)
집단 간 변량
설명되지 않은 변동(오차) SSE SSW (within groups)
집단 내 변량

 

2.4 F-test

[ANOVA Table]

  df(자유도) SS(Sum of Square) 분산 F값
그룹 간(설명된 변동) g-1 SSB MSB = SSB/(g-1) MSB/MSW
그룹 내(오차) N-g SSW MSW = SSW/(n-g)  
총 합 N-1 SST    
g: 그룹의 수/  N: 데이터의 수

 

1) 검정통계량(F*)을 구한다.

  -> F* = MSB/MSW

 

2) F(critical value)값을 구한다.

  -> 위의 F값은 F(g-1, N-g)분포를 따르므로, 해당 분포의 critical value를 table에서 찾는다. 

 

3) 결과 해석

  i) 귀무가설 채택 : 모평균들 간에는 차이가 없다 (μ123 .... )

  ii) 대립가설 채택 : 적어도 두 모평균은 다르다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

댓글