정규분포의 모집단 N(μ, σ²)에서 무작위로 추출한 n개의 측정치의 평균과 분산을 구하면 다음과 같다.
표본들의 평균을 넣고 식을 쪼개면, 쉽게 유도할 수 있으므로 자세한 유도 과정은 생략한다.
중심극한 정리
여기서, 중심극한 정리를 생각해 볼 수 있다. 중심극한 정리는 다음과 같다.
Thm. 중심극한 정리
평균이 μ이고, 분산이 σ²인 임의의 모집단으로부터 표본평균 x_bar를 n개 추출한다면, n이 충분히 클 때 표본평균들의 분포는 근사적으로 N(μ, σ²/n)을 따르게 된다.
중요한 포인트는 (1) 임의의 모집단에서, (2) 표본평균의 분포가 어떻게 될지를 보는 것이다.
평균이 아니라 분산이라면? - 카이제곱분포
먼저, 카이제곱분포란?
k개의 서로 다른, 각각이 독립인 표준정규분포의 제곱합에 대해 고려한다.
이를 자유도 k의 카이제곱분포라고 한다.
카이제곱분포는, 좌우 대칭형은 아니다!
왜 이런 형태를 가지게 될까? 제곱합의 분포를 나타냈다고 생각을 한다면, 치우침이 클수록, 이 제곱합의 영향이 클 것이다. 즉, 카이제곱 분포는 퍼진 정도를 나타낼 수 있게 된다. 편차가 큰 쪽은 상대적으로 덜 나타날 것이므로, 오른쪽 꼬리가 긴 형태의 모양이 나온 것이다.
분산과 카이제곱분포의 관계, 구체적으로
직관적으로는 카이제곱분포와 분산의 연관성을 알 수 있는데, 이를 조금 더 엄밀하게 설명해보려고 한다.
이를 고려하기 위해서는 표본 분산의 분포에 대해 고려하면 된다. 풀고 싶은 문제를 정의해보자.
정규분포의 모집단 N(μ, σ²)에서 무작위로 추출한 n개의 표본확률변수 X1, X2, .. Xn에 대해
Y가 자유도 (n-1)인 카이제곱 분포를 따름을 보이면 된다.
즉, 모집단이 정규 분포를 따를 경우, 표본분산은 카이제곱 분포를 따르게 된다!
로 분해하는 과정을 통해, 얻어낼 수 있다. 여기서 + 오른쪽 부분은 자유도 1, 왼쪽 부분은 자유도 n-1 형태이다. * 물론, 엄밀한 증명을 위해서는 계산 과정과 함께 자유도가 n1, ,.. nk인 확률분포를 합쳤을때의 카이제곱 분포의 자유도가 더한 형태로 나옴도 증명해야 하나, 자세한 과정은 여기서는 생략하다. 무엇을 하고 싶은지만 감을 잡고넘어간다.