표본 평균의 분포
정규분포의 모집단 N(μ, σ²)에서 무작위로 추출한 n개의 측정치의 평균과 분산을 구하면 다음과 같다.
표본들의 평균을 넣고 식을 쪼개면, 쉽게 유도할 수 있으므로 자세한 유도 과정은 생략한다.
중심극한 정리
여기서, 중심극한 정리를 생각해 볼 수 있다. 중심극한 정리는 다음과 같다.
Thm. 중심극한 정리
평균이 μ이고, 분산이 σ²인 임의의 모집단으로부터 표본평균 x_bar를 n개 추출한다면, n이 충분히 클 때 표본평균들의 분포는 근사적으로 N(μ, σ²/n)을 따르게 된다.
중요한 포인트는 (1) 임의의 모집단에서, (2) 표본평균의 분포가 어떻게 될지를 보는 것이다.
평균이 아니라 분산이라면? - 카이제곱분포
먼저, 카이제곱분포란?
k개의 서로 다른, 각각이 독립인 표준정규분포의 제곱합에 대해 고려한다.
이를 자유도 k의 카이제곱분포라고 한다.
왜 이런 형태를 가지게 될까? 제곱합의 분포를 나타냈다고 생각을 한다면, 치우침이 클수록, 이 제곱합의 영향이 클 것이다. 즉, 카이제곱 분포는 퍼진 정도를 나타낼 수 있게 된다. 편차가 큰 쪽은 상대적으로 덜 나타날 것이므로, 오른쪽 꼬리가 긴 형태의 모양이 나온 것이다.
분산과 카이제곱분포의 관계, 구체적으로
직관적으로는 카이제곱분포와 분산의 연관성을 알 수 있는데, 이를 조금 더 엄밀하게 설명해보려고 한다.
이를 고려하기 위해서는 표본 분산의 분포에 대해 고려하면 된다. 풀고 싶은 문제를 정의해보자.
정규분포의 모집단 N(μ, σ²)에서 무작위로 추출한 n개의 표본확률변수 X1, X2, .. Xn에 대해
Y가 자유도 (n-1)인 카이제곱 분포를 따름을 보이면 된다.
즉, 모집단이 정규 분포를 따를 경우, 표본분산은 카이제곱 분포를 따르게 된다!
로 분해하는 과정을 통해, 얻어낼 수 있다. 여기서 + 오른쪽 부분은 자유도 1, 왼쪽 부분은 자유도 n-1 형태이다.
* 물론, 엄밀한 증명을 위해서는 계산 과정과 함께 자유도가 n1, ,.. nk인 확률분포를 합쳤을때의 카이제곱 분포의 자유도가 더한 형태로 나옴도 증명해야 하나, 자세한 과정은 여기서는 생략하다. 무엇을 하고 싶은지만 감을 잡고넘어간다.
다음이 성립함을 증명할 수 있다.
'Archive > 수학 & 통계학 관련' 카테고리의 다른 글
[Data] 부트스트랩과 순열검정 (0) | 2022.02.27 |
---|---|
[Stat] t-분포와 F-분포 (0) | 2022.01.23 |
[Stat] 범주형 변수에 대한 검정 (0) | 2021.11.17 |
[Stat] 집단간 평균 비교 (0) | 2021.09.03 |
[Data] 선형회귀에서의 변수 선택(AIC, VIF) (0) | 2021.08.07 |