본문 바로가기
Statistics

[통계] 카이제곱 검정(Chi-squre test)

by Hyen4110 2021. 4. 27.

1. 카이제곱 검정이란?

- Chi(카이) 란?

 : 카이(chi, χ)란 그리스 알파벳 버전으로 표준정규분포를 의미

 

- 카이제곱분포(Chi-Square Distribution)

(이미지 출처) 위키피디아

- 카이제곱 검정(Chi-Square Distribution)

 : 피어슨의 카이제곱 검정은 하나 또는 더 많은 범주형 변수의 교차표*에서 예측 빈도(expected frequency)와 관측 빈도(observed frequency) 사이의 차이가 통계적으로 유의한지 결정하는 검정 (출처: 위키피디아)

: 범주(category)별로 관측된 빈도와 기대빈도의 차이를 봄으로써 하나의 확률모형이 전반적으로 자료를 얼마나 잘 설명하는지 검정하는데 사용 (출처: KMOOCS)

:  카이제곱값 구하는 법 -> χ² = Σ (관측값-기댓값)²/기댓값 

: 두 범주간 인과관계는 알 수 없고, 패턴만 읽을 수 있기 때문에 초보적인 단계에서 주로 사용한다. 

*교차표(cross tabulation)
  - 2개 이상의 독립변수를 상호 관련시켜 한 눈에 보이게 만든 표
  - 두 변수의 빈도표를 교차시켰다는 의미에서 교차표 라고 한다
  - 다른 말로 분
할표(contingency table)라고도 함
  - 일반적으로 행에는 설명변수, 열에는 종속변수를 배치

 

 

2. 카이제곱 검정의 유형 

1) One Sample Test (단일 표본 검정) 
2) Two sample Test (독립 2표본 검정)
3) MecNemar test (맥니마 검정)

 

1) One Sample Case (단일 표본)

- [설명]

   : 단일 표본에서 종속변수의 차이가 유의미한지 검정(설명변수 =1)

   : 자유도(df)는 '종속변수의 범주-1' 이다. 

         

- [예시문제1]

     대학 교수 200명의 표본을 대상으로 조사한 결과, 총장의 정책에 대해 168명은 지지 32명은 반대를 하였다.

     이 때 모든 교수의 90% 이상은 총장의 정책에 찬성한다고 할 수 있는가?

   

    : 아래와 같은 교차표를 작성 가능. 일단, 설명변수가 1개인 범주형변수임을 알 수있다.

  지지 반대 합계
교수(Total) 168 32 200

[STEP0] 귀무가설 설정

: 90%의 교수들은 총장의 정책을 지지한다.

 

[Step1] 카이제곱값 구하기 

: 카이제곱값을 구하기 위하여 예측값과 실제값을 표시하였다.

  지지 반대 합계
가정(예측) 180 20 200
표본조사(실제) 168 32 200

: 계산 과정의 이해를 돕기위해 표의 모양을 바꿔보았다.

  관측값(O) 예측값(E) O-E (O-E)² (O-E)²/E
지지 168 180 -12 144 0.80
반대 32 20 +12 144 7.2
합계 200 200 0   8(=χ²)

[STEP2] χ²의 critical value 구하기

: 카이제곱값(χ²)의 critical value table에서 값을 찾기위해서는 자유도(df), 유의수준(a)가 필요! 

: 자유도는 #category-1이므로 2-1 =1, 유의도는 0.05

: χ² table에서 찾은 카이제곱값(χ² c.v) = 3.841

 

[STEP3] 구한 χ²와 χ² critical 비교

: χ² > χ² c.v이므로 귀무가설을 기각한다!

: 90%의 교수들이 총장을 지지한다고 할 수 없다. 

 

- [예시문제2]

한 사회학자는 사람들의 직업이 아래의 분포와 같다고 가정하였다. 

"농업종사자 20%, 노동자 30%, 정부관계자 30%. 전문직 15%, 산업관리자 5%"

가설을 검증하기위하여 864명의 표본을 조사한 결과는 아래표와 같다.

이때 사회학자의 이론은 실제 직업분포를 잘설명하고 있다고 할 수 있는가?

 

=> 사회학자의 이론에 의하여 예측되는 값(기대값) = 확률(p)*전체인구를 구하고, 

    (예를들어 농업종사자는 864*(0.2) = 172.8명이다)

    이 예측값이 표본조사를 통해 얻은 관측값과 얼마나 차이가있는지 카이제곱 통계량을 계산한다. 

=> 단일표본에서 카테고리수가 5개이므로, 자유도(df)는 #category-1 = 5-1 =4 

=> df와 유의도를 가지고 카이제곱 테이블에서χ² critical value를 구하여 카이제곱 통계량과 비교!

 

2) Two Sample Case (독립 2표본)

- [설명]

   : 두 범주형 변수가 서로 관련이 있는지 검정하고 싶을때! (예: 성별과 떡볶이 호/불호는 관련이 있을까?)

   : 예측값은 두 변수는 독립적이라는 것을 근거로 아래와 같이 구함!

     -> P(A∩ㄱ) = P(A)*P(ㄱ)로 각 예측값을 구한 후, 표본조사로 얻은 관찰값으로 카이제곱 통계량 얻기

   : 자유도(df)는 각 범주의 카테고리수(R,C)에 대하여 '(R-1)(C-1)'

 

- [예시문제1]

 : 정년을 받은 교수와 받지 않은 교수간의 지지율 차이가있는가? 

표본조사 결과 지지 반대 합계
정년 받음 86 19 105
정년 안받음 82 13 95
합계 168 32 200

 [STEP1] 두 범주가 독립적이라는 가정으로, 예측값을 구해보자

 -> (예) 정년을 받으면서 지지할 확률 = 정년받을 확률(정년받은교수/전체)*지지할 확률(지지/전체)

예측값 지지 반대
정년 받음 200*(168/200)*(105/200) 200*(32/200)*(105/200)
정년 안받음 200*(168/200)*(95/200) 200*(32/200)*(95/200)

[STEP2] 카이제곱 통계량 구하기

  관측값(O) 예측값(E) O-E (O-E)² (O-E)²/E
정년받음 & 지지 86 88.2 -2.2 4.84 0.055
정년받음 & 반대 19 16.8 2.2 4.84 0.288
정년안받음 & 지지 82 79.8 2.2 4.84 0.061
정년안받음 & 반대 13 15.2 -2.2 4.84 0.318
          0.722(=χ²)

[STEP3] χ²의 critical value 구하기

: 카이제곱값(χ²)의 critical value table에서 값을 찾기위해서는 자유도(df), 유의수준(a)가 필요! 

: 자유도는 (#category R -1)(#category C - 1) = (2-1)*(2-1), 유의도는 0.05

: χ² table에서 찾은 카이제곱값(χ² c.v) = 3.841

 

[STEP4] 구한 χ²와 χ² critical 비교

: χ² < χ² c.v이므로 귀무가설을 기각할수 없음!

: 정년 여부는 총장의 정책에 대한 지지와 관련 없음

 

3) MecNemar test (맥니마 검정)

- [설명]

   : 동일한 집단의 대응 범주형 데이터(paired nominal data)의 전후 비율을 비교하고 싶을때( pretest-posttest)

   : 예측값은 범주가 서로 관련이 없다는 가정을 따라, 변화가있는 값의 기대값이 같다고 설정하여 얻음 

   : 자유도(df)는 1

 

- [예시문제1]

 : 금연교육이 얼마나 효과적인지 알아보고자 한다. 금연 교육을 실시한 전후 흡연자와 비흡연자의 금연의사가 바뀌었는지 38명을 대상으로 조사함

  금연교육 후
금연안해 금연할래  
금연교육 전 금연할래 14 (A) 16 (B) 30
금연안해 6 (C) 2 (D) 8
  20 18 38

[STEP1] 사전사후 변화가 없다는 가정을 바탕으로, 예측값을 구해보자

: 생각의 변화가있는 값에만 초점을 맞추고 분석한다

: 금연한다고 했다가 교육 후 금연안하겠다고 하는 14명과

  금연안한다고 했다가 한다고 바꾼 2명의 값만 집중한다!

 -> 변화가 있는 값으로만 카이제곱 통계량을 구함!

 

[STEP2] 카이제곱 통계량 구하기

: χ² = (14-2)²/(14+2) =9

 

[STEP3] χ²의 critical value 구하기

: 자유도가 1이고, 유의수준이 0.05 이므로 χ² table에서 찾은 카이제곱값(χ² c.v) = 3.841

 

[STEP4] 구한 χ²와 χ² critical 비교

: χ² > χ² c.v이므로 귀무가설을 기각!

 

<정리>

  one sample case two sample case 맥니마 검정
변수 범주형변수 1개 범주형 변수 2개 범주형 변수 1개(사전,사후)
예측값(기댓값 구하는 법 가정(귀무가설)로 주어짐 두 변수가 독립 사건임을 가정하여 구함 변화가있는 값(A,D)의 기대값이 같다(=(A+D)/2)고 가정하여 구함
자유도(df) (변수의 category 수) -1 {(A변수 category 수)-1}*
{(B변수 category 수)-1}
1
카이제곱 통계량 식 Σ (관측값-기댓값)²/기댓값 Σ (관측값-기댓값)²/기댓값 Σ (관측값-기댓값)²/기댓값
(※변화가 있는 값만!)

 

댓글