본문 바로가기
카테고리 없음

[TIL] 0812 아침스터디 - 비모수적 방법 (1)

by 다람이도토리 2022. 8. 12.

* 모수적 방법과 비모수적 방법

모수적 방법
  - 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정을 실시한다. 
   EX) 정규성 검정 or 중심극한정리에 의해 모집단의 분포를 정규분포라고 볼 수 있을 경우.
비모수적 방법
 - 모집단의 분포를 가정하지 않는다. 
   EX) 표본의 크기가 10개 이하로 매우 작을 경우,  모집단의 분포가 정규분포가 아닐 경우 (혹은 변환 불가)

 

비모수적 방법의 예시

(1) 부호검정 (sign test)

중앙값을 통해 가설을 검정하는 방법으로, 단일표본 t-test에 대응되는 비모수적 방법이다.

즉, 부호 검정을 통해 단일 집단에서의 검정, 대응 표본에 대한 검정을 진행할 수 있다.

단일 집단에서의 검정 : 모집단의 중앙값 M이, 특정값과 동일한지에 대한 검정
대응 표본에대한 검정 : 대응하는 두 데이터쌍이 동일한지에 대한 검정

부호 검정의 방법

부호 검정의 아이디어는, 중앙값보다 큰 값을 가지는 경우를 '+'로, 중앙값보다 작은 값을 가지는 경우를 '-'로 둔다.
-> 이 때, 부호를 부여하는 데이터는 이항분포를 따르게 된다.

즉, 개수의 차이가 어느정도 나는지에 대해서 검정을 실시하게 된다. 정확하게는,

의 값을 p-value로 가지게 된다. 이 값이 유의수준보다 클 경우, 귀무가설을 기각할 수 없으며 유의수준보다 작을 경우 귀무가설이 기각된다.

* 대응 표본에 대한 검정의 단점은, 부호만 고려하기 때문에 두 데이터에 대한 상대적인 크기를 고려하는 방법을 고려할 수 있다.

# 코드
# samp : 1d-array
# mu0 = default는 0, 원래는 median으로 두어야 한다.
statsmodels.stats.descriptivestats.sign_test(samp, mu0=0)

# 위의 값에서 p-value를 뱉는다. 이 값을 가지고 계산한다.

(2) 만-위트니 순위합 검정 (Mann-Whitney test)

독립된 두 집단의 중심 위치를 비교하기 위한 사용법으로, 서열 관계를 이용하는 방법이다.

이 검정을 통해 보려는 것 또한, 대응하는 두 데이터 쌍이 동일한지를 보는 것이다.

step 1. 두 모집단을 통합한 후, 오름차순으로 정렬하여,가장 작은 값부터 순위를 매긴다.
step 2. 표본별 순위의 합을 계산한다.
step 3. 표본 i별로 U_i값을 계산한다. (U_i = (순위합계) - n*(n+1)/2)  (n: 해당 표본 i에서의 표본크기)
step 4. U값을 이용하여 두 집단의 차이를 검정하게 된다.