본문 바로가기
Archive/수학 & 통계학 관련

[Stat] 범주형 변수에 대한 검정

by 다람이도토리 2021. 11. 17.

범주형 변수에 대한 검정을 한다?

범주형 변수에 대한 통계적 검정을 한다는 것의 의미는 분포에 대한 검정을 의미한다.
이는, 우리가 예상하는 범주형 변수의 분포랑, 실제 관찰된 변수의 분포가 동일한지, 다른지 해석을 통해 통계적 Insight를 찾아내려는 것을 말한다.

예시1> 주사위가 하나 있다. 이 주사위를 던져, 모든 눈이 균일하게 나온다고 할 수 있을까?
예시2> 상품 A, B, C의 선호도에 대해 조사해보았다. 상품에 대한 선호도는 남성, 여성 상관없이 동일한 선호도 분포를 가지고 있을까?

이러한 질문들에 대해 답하고자 할 때 카이제곱검정을 이용하게 된다.

카이제곱 분포의 이용

범주형 변수에 대해 검정을 할 때는, 카이제곱분포를 활용한다.
카이제곱 분포를 바탕으로 관찰된 빈도와, 기대하는 빈도의 차이가 얼마나 큰지를 확인한다.

이는 다음과 같이 식으로 표현할 수 있다.

x를 관측값, m를 기대되는 값으로 두면 카이제곱분포의 검정통계량은 다음과 같이 정의된다.

해당 값을 기준으로 p-value를 계산하게 된다. 이 때, 가설은 다음과 같이 두게 된다.

귀무가설(H0) : 관찰빈도와 기대빈도는 동일하다.
대립가설(H1) : 관찰빈도와 기대빈도는 동일하지 않다.

즉 유의수준 하에서 만일 p-value값이 p-value < 유의수준일 경우 해당 유의수준 하에서 귀무가설이 기각되며 실제 관측된 빈도와 기대빈도는 동일하지 않다는 것을 알 수 있게 된다.

카이제곱 검정의 종류

위에서 든 예시인 문제1과 문제2의 결은 조금 다르나, 유사한 방식으로 카이제곱검정을 하게 된다. 실제로 카이제곱검정은 다음 3가지가 존재한다.

적합도 검정 : 하나의 범주형 변수에 대해 기대 분포를 따르는지에 대한 검정
독립성 검정 : 두개의 범주형 변수에 대해 변수들끼리 독립인지 확인하는 검정
동질성 검정 : 하나의 범주형 변수를 고정하고, 다른 범주형 변수를 가져와 해당 변수가 달라져도 고정된 범주형 변수의 분포가 동일한가에 대한 검정

 

실습(scipy 활용)

https://github.com/SeongwonTak/TIL_swtak/blob/master/DataScience/211116_chi_squared_test.ipynb

 

GitHub - SeongwonTak/TIL_swtak: Today, I learned.

Today, I learned. Contribute to SeongwonTak/TIL_swtak development by creating an account on GitHub.

github.com