1. 카이제곱 검정이란?
- Chi(카이) 란?
: 카이(chi, χ)란 그리스 알파벳 버전으로 표준정규분포를 의미
- 카이제곱분포(Chi-Square Distribution)
- 카이제곱 검정(Chi-Square Distribution)
: 피어슨의 카이제곱 검정은 하나 또는 더 많은 범주형 변수의 교차표*에서 예측 빈도(expected frequency)와 관측 빈도(observed frequency) 사이의 차이가 통계적으로 유의한지 결정하는 검정 (출처: 위키피디아)
: 범주(category)별로 관측된 빈도와 기대빈도의 차이를 봄으로써 하나의 확률모형이 전반적으로 자료를 얼마나 잘 설명하는지 검정하는데 사용 (출처: KMOOCS)
: 카이제곱값 구하는 법 -> χ² = Σ (관측값-기댓값)²/기댓값
: 두 범주간 인과관계는 알 수 없고, 패턴만 읽을 수 있기 때문에 초보적인 단계에서 주로 사용한다.
*교차표(cross tabulation) - 2개 이상의 독립변수를 상호 관련시켜 한 눈에 보이게 만든 표 - 두 변수의 빈도표를 교차시켰다는 의미에서 교차표 라고 한다 - 다른 말로 분할표(contingency table)라고도 함 - 일반적으로 행에는 설명변수, 열에는 종속변수를 배치 |
2. 카이제곱 검정의 유형
1) One Sample Test (단일 표본 검정) |
1) One Sample Case (단일 표본) |
- [설명]
: 단일 표본에서 종속변수의 차이가 유의미한지 검정(설명변수 =1)
: 자유도(df)는 '종속변수의 범주-1' 이다.
- [예시문제1]
대학 교수 200명의 표본을 대상으로 조사한 결과, 총장의 정책에 대해 168명은 지지 32명은 반대를 하였다.
이 때 모든 교수의 90% 이상은 총장의 정책에 찬성한다고 할 수 있는가?
: 아래와 같은 교차표를 작성 가능. 일단, 설명변수가 1개인 범주형변수임을 알 수있다.
지지 | 반대 | 합계 | |
교수(Total) | 168 | 32 | 200 |
[STEP0] 귀무가설 설정
: 90%의 교수들은 총장의 정책을 지지한다.
[Step1] 카이제곱값 구하기
: 카이제곱값을 구하기 위하여 예측값과 실제값을 표시하였다.
지지 | 반대 | 합계 | |
가정(예측) | 180 | 20 | 200 |
표본조사(실제) | 168 | 32 | 200 |
: 계산 과정의 이해를 돕기위해 표의 모양을 바꿔보았다.
관측값(O) | 예측값(E) | O-E | (O-E)² | (O-E)²/E | |
지지 | 168 | 180 | -12 | 144 | 0.80 |
반대 | 32 | 20 | +12 | 144 | 7.2 |
합계 | 200 | 200 | 0 | 8(=χ²) |
[STEP2] χ²의 critical value 구하기
: 카이제곱값(χ²)의 critical value table에서 값을 찾기위해서는 자유도(df), 유의수준(a)가 필요!
: 자유도는 #category-1이므로 2-1 =1, 유의도는 0.05
: χ² table에서 찾은 카이제곱값(χ² c.v) = 3.841
[STEP3] 구한 χ²와 χ² critical 비교
: χ² > χ² c.v이므로 귀무가설을 기각한다!
: 90%의 교수들이 총장을 지지한다고 할 수 없다.
- [예시문제2]
한 사회학자는 사람들의 직업이 아래의 분포와 같다고 가정하였다.
"농업종사자 20%, 노동자 30%, 정부관계자 30%. 전문직 15%, 산업관리자 5%"
가설을 검증하기위하여 864명의 표본을 조사한 결과는 아래표와 같다.
이때 사회학자의 이론은 실제 직업분포를 잘설명하고 있다고 할 수 있는가?
=> 사회학자의 이론에 의하여 예측되는 값(기대값) = 확률(p)*전체인구를 구하고,
(예를들어 농업종사자는 864*(0.2) = 172.8명이다)
이 예측값이 표본조사를 통해 얻은 관측값과 얼마나 차이가있는지 카이제곱 통계량을 계산한다.
=> 단일표본에서 카테고리수가 5개이므로, 자유도(df)는 #category-1 = 5-1 =4
=> df와 유의도를 가지고 카이제곱 테이블에서χ² critical value를 구하여 카이제곱 통계량과 비교!
2) Two Sample Case (독립 2표본) |
- [설명]
: 두 범주형 변수가 서로 관련이 있는지 검정하고 싶을때! (예: 성별과 떡볶이 호/불호는 관련이 있을까?)
: 예측값은 두 변수는 독립적이라는 것을 근거로 아래와 같이 구함!
-> P(A∩ㄱ) = P(A)*P(ㄱ)로 각 예측값을 구한 후, 표본조사로 얻은 관찰값으로 카이제곱 통계량 얻기
: 자유도(df)는 각 범주의 카테고리수(R,C)에 대하여 '(R-1)(C-1)'
- [예시문제1]
: 정년을 받은 교수와 받지 않은 교수간의 지지율 차이가있는가?
표본조사 결과 | 지지 | 반대 | 합계 |
정년 받음 | 86 | 19 | 105 |
정년 안받음 | 82 | 13 | 95 |
합계 | 168 | 32 | 200 |
[STEP1] 두 범주가 독립적이라는 가정으로, 예측값을 구해보자
-> (예) 정년을 받으면서 지지할 확률 = 정년받을 확률(정년받은교수/전체)*지지할 확률(지지/전체)
예측값 | 지지 | 반대 |
정년 받음 | 200*(168/200)*(105/200) | 200*(32/200)*(105/200) |
정년 안받음 | 200*(168/200)*(95/200) | 200*(32/200)*(95/200) |
[STEP2] 카이제곱 통계량 구하기
관측값(O) | 예측값(E) | O-E | (O-E)² | (O-E)²/E | |
정년받음 & 지지 | 86 | 88.2 | -2.2 | 4.84 | 0.055 |
정년받음 & 반대 | 19 | 16.8 | 2.2 | 4.84 | 0.288 |
정년안받음 & 지지 | 82 | 79.8 | 2.2 | 4.84 | 0.061 |
정년안받음 & 반대 | 13 | 15.2 | -2.2 | 4.84 | 0.318 |
0.722(=χ²) |
[STEP3] χ²의 critical value 구하기
: 카이제곱값(χ²)의 critical value table에서 값을 찾기위해서는 자유도(df), 유의수준(a)가 필요!
: 자유도는 (#category R -1)(#category C - 1) = (2-1)*(2-1), 유의도는 0.05
: χ² table에서 찾은 카이제곱값(χ² c.v) = 3.841
[STEP4] 구한 χ²와 χ² critical 비교
: χ² < χ² c.v이므로 귀무가설을 기각할수 없음!
: 정년 여부는 총장의 정책에 대한 지지와 관련 없음
3) MecNemar test (맥니마 검정) |
- [설명]
: 동일한 집단의 대응 범주형 데이터(paired nominal data)의 전후 비율을 비교하고 싶을때( pretest-posttest)
: 예측값은 범주가 서로 관련이 없다는 가정을 따라, 변화가있는 값의 기대값이 같다고 설정하여 얻음
: 자유도(df)는 1
- [예시문제1]
: 금연교육이 얼마나 효과적인지 알아보고자 한다. 금연 교육을 실시한 전후 흡연자와 비흡연자의 금연의사가 바뀌었는지 38명을 대상으로 조사함
금연교육 후 | ||||
금연안해 | 금연할래 | |||
금연교육 전 | 금연할래 | 14 (A) | 16 (B) | 30 |
금연안해 | 6 (C) | 2 (D) | 8 | |
20 | 18 | 38 |
[STEP1] 사전사후 변화가 없다는 가정을 바탕으로, 예측값을 구해보자
: 생각의 변화가있는 값에만 초점을 맞추고 분석한다
: 금연한다고 했다가 교육 후 금연안하겠다고 하는 14명과
금연안한다고 했다가 한다고 바꾼 2명의 값만 집중한다!
-> 변화가 있는 값으로만 카이제곱 통계량을 구함!
[STEP2] 카이제곱 통계량 구하기
: χ² = (14-2)²/(14+2) =9
[STEP3] χ²의 critical value 구하기
: 자유도가 1이고, 유의수준이 0.05 이므로 χ² table에서 찾은 카이제곱값(χ² c.v) = 3.841
[STEP4] 구한 χ²와 χ² critical 비교
: χ² > χ² c.v이므로 귀무가설을 기각!
<정리>
one sample case | two sample case | 맥니마 검정 | |
변수 | 범주형변수 1개 | 범주형 변수 2개 | 범주형 변수 1개(사전,사후) |
예측값(기댓값 구하는 법 | 가정(귀무가설)로 주어짐 | 두 변수가 독립 사건임을 가정하여 구함 | 변화가있는 값(A,D)의 기대값이 같다(=(A+D)/2)고 가정하여 구함 |
자유도(df) | (변수의 category 수) -1 | {(A변수 category 수)-1}* {(B변수 category 수)-1} |
1 |
카이제곱 통계량 식 | Σ (관측값-기댓값)²/기댓값 | Σ (관측값-기댓값)²/기댓값 | Σ (관측값-기댓값)²/기댓값 (※변화가 있는 값만!) |
'Statistics' 카테고리의 다른 글
[통계] 선형회귀분석(Linear Regression) (2) | 2021.05.23 |
---|---|
[통계] 상관관계(Correlation Coefficient) (6) | 2021.05.23 |
[통계] 05 두 집단 비교에 대한 추론 (0) | 2021.04.23 |
[통계] 04 가설검정_1, 2종 오류와 유의수준 (0) | 2021.04.19 |
[통계] 03 표본분포(Sampling distribution) (0) | 2021.04.19 |
댓글