들어가기 : 재표본 추출(Resampling)이란?
우선, 재표본 추출이란 데이터에서의 랜덤한 변동성을 알아내기 위해, 관찰된 데이터의 값에서 표본을 반복적으로 추출하는 행위를 뜻한다.
머신러닝에서도, 재표본 추출 개념을 고려할 수 있는데 역시 표본을 반복해서 재추출하고 재추출된 표본에 모형을 적합하여, 분류 성능을 높이는 개념을 의미한다.
여기에서는 '통계학'에서 말하는 Resamling에 대해 고려하려고 한다.
크게 다음의 두 가지에 대해 생각해 볼 수 있다.
1. 부트스트랩
2. 순열검정
부트스트랩
모수의 표본 분포를 추정하는 쉽고 효과적인 방법으로, 부트스트랩을 활용할 수 있다.
이를 위해, 현재 있는 표본에서 표본을 "복원추출 하고", 각 표본에 대한 통계량 등을 다시 계산하게 된다.
데이터 수가 너무 적어서 신뢰 구간 같은 기법을 사용할 수 없을 경우, 효과적으로 활용할 수 있다.
Bootstrap을 활용하여 신뢰구간을 구하는 방법
I. 전체 표본에서 1개의 data를 무작위로 추출하여 기록한다.
II. 해당 데이터를 다시 원상 복구하고 여기까지의 작업을 N번 반복한다.
III. N번 재표본추출해서 나온 값들의 평균을 기록한다.
IV. 위의 과정을 여러 번 반복하여, 나온 결과를 사용하여 신뢰 구간을 계산한다.
Remark. 신뢰구간이란?
확률표본을 N번 뽑아, 구간 N개를 얻게 되면 이 중 모수를 포함하는 것이 어느정도인지를 고려하게 된다.
즉, 쉽게 표현하면, 참 값이 일정 구간안에 있을 확률이 어느정도인지를 표현하게 된다.
순열검정
순열검정의 목표는 조금 다르다. Sample size가 작은 두 그룹이 존재할 때, 이 두 그룹의 분포가 어느 정도로 같은지를 판단할 수 있는 방법이다. (비모수 검정법!) 즉 두 그룹간 차이가 존재하는지에 대해 확인하는 작업이다.
두 그룹간 차이가 존재하지 않는다의 의미 = 두 표본 집단은 하나의 모집단에서 추출되었다.
순열 검정은 "만일 두 표본이 동일한 모집단에서 추출되었다면, 두 그룹내의 샘플을 교환 후 통계적 검증을 진행해도 여전히 두 그룹간에는 통계적으로 유의미한 차이가 없을 것이다" 라는 것을 본질적인 아이디어로 가져간다.
순열 검정의 진행 방법
I. 여러 그룹의 결과를 하나의 데이터로 결합한다.
II. 결합한 데이터를 섞은후, 각 그룹들에 무작위로 "비복원 추출"을 실시한다.
III. 새로 추출된 표본들을 기준, 각 그룹별로 통계량을 다시 계산한다.
IV. 이들의 차이에 대해 분석, 위의 과저을 반복하여 "차이"에 대한 통계 분포를 얻게 된다.
'Archive > 수학 & 통계학 관련' 카테고리의 다른 글
[Data] 대리분석 개요 (0) | 2022.06.09 |
---|---|
[Stat] 다중 검정이란? (0) | 2022.02.28 |
[Stat] t-분포와 F-분포 (0) | 2022.01.23 |
[Stat] 표본평균 및 표본분산의 분포. (0) | 2022.01.21 |
[Stat] 범주형 변수에 대한 검정 (0) | 2021.11.17 |