프로그래머스 Week 3 Day 1 추정과 검정 정리
(일부 사진 자료 및 수식은 프로그래머스 강의 출처)
가설 검정에 대해서는, 추가 내용을 정리하였다...(중요한 내용인데)
추가 참고자료 : 밑바닥부터 시작하는 데이터 과학 2판
구간추정과 신뢰구간의 의미
신뢰구간의 의미
선거 시즌에 들으면 여론조사 관련하여, 신뢰도가 몇%다 이런 이야기가 나오는데, 여기서 말하는 신뢰도 그리고 신뢰 구간은 어떤 것을 의미할까?
신뢰구간는 기본적으로 표본을 추출하여 평균이 주어진 신뢰 구간안에 들어갈 확률이 신뢰도만큼이다를 의미한다.
예를 들어, 일반적으로 흠집이 없는 정상적인 동전을 N번 던지는 행위를 100번 할 경우 , 만일 동전이 올바르다면 앞면이 나올 개수에 대하여, 95번은 95% 신뢰 구간 안에 들어갈 것이다.
정규분포의 신뢰구간
정규분포의 경우는 기본적으로 좌우대칭인 구조이므로, 95% 신뢰도라면, 평균을 기준으로 우측으로 47.5%, 좌측으로 47.5% 확률이 나오도록 구간을 잡으면 된다.
다음과 같은 방법으로 계산하게 된다.
그런데, 일반적으로 모분산을 알 리가 없기에, 표본분산을 사용한다. 표본의 크기가 클 경우 중심극한정리에 의해, 표본평균이 모평균에 근사하게 된다. 그리고 모표본편차에서 표본의 개수의 제곱근만큼 나눠주는 방식으로 표본표준편차를 얻게 된다. 이 때의 신뢰구간은
가 된다.
모비율의 추정
동일한 원리로, 모비율 또한 추정이 가능하다.
검정
통계적 가설검정
예시 문제를 통해 가설검정을 하는 상황을 이해해보자.
예시)
학생들의 키의 평균이 170cm 보다 더 큰지 검증하기 위해서 학생 36명을 대상으로 표본을 추출하여 키를 쟀다. 그랬더니, 학생들의 평균 키는 172.4cm가 되었다.
표본 평균이 기준값 170cm보다 얼마나 커야 모평균이 170cm보다도 크다라고 말할 수 있을까?
키의 표본표준편차는 3cm로 주어져 있다.
이를 위해서는 가설을 설립해야 한다. 이 가설에는 두가지 종류가 있다.
1. 귀무가설 : 기본 입장, H0으로 표기한다. 주장하는 바와 대립되는 바이다.
2. 대립가설 : 귀무가설과 대비되는 바, 우리가 주장하고자 하는 바를 대립가설로 한다.
즉, 귀무가설이 기각이 되어야 우리가 주장하고자 하는 바가 통계적으로 설득력을 얻게 되는 것에 주의를 하자.
위의 문제는 다음과 같이 귀무가설과 대립가설이 설정된다.
귀무가설 : u = 170cm
대립가설 : u > 170cm
제 1종 오류와 제 2종 오류, 유의수준, 검정력
제 1종 오류란, 옳은 귀무가설이 기각될 확률이다. 이는 유의수준으로 불리기도 한다.
즉 유의 수준 이상으로 귀무가설이 기각될 확률이 잡히면, 귀무가설을 기각하기엔 어렵다고 볼 수 있을 것이다.
반면, 제 2종 오류란, 틀린 귀무가설을 맞다고 판단한 확률이다.
Remark. 제 1종 오류와 제 2종 오류는 서로 역의 관계에 있다. 하나를 줄이면 다른 하나가 증가한다.
기각역과 p-value
다시 예시 문제로 돌아온다.
예시)
학생들의 키의 평균이 170cm 보다 더 큰지 검증하기 위해서 학생 36명을 대상으로 표본을 추출하여 키를 쟀다. 그랬더니, 학생들의 평균 키는 172.4cm가 되었다.
표본 평균이 기준값 170cm보다 얼마나 커야 모평균이 170cm보다도 크다라고 말할 수 있을까?
키의 표본표준편차는 3cm로 주어져 있다.
유의수준 5% 하에서 위의 가설을 기각할 수 있는지 보고 싶다.
그러면, 키의 평균이 충분히 커서, 저 5% 안쪽의 면적으로 들어가야, 가설을 기각할 수 있을 것이다!
그러면 정규화에 의해
다음과 같은, 계산 과정에 의거, 표본평균이 170.8225cm 이상일 경우 유의 수준에 해당하는 기각역에 들어가게 된다. 학생들의 평균 키는 172cm 이므로, 기각역 안에 속하여 귀무가설이 기각된다.
주의! 귀무가설을 기각하지 못한다는 것은, 귀무가설을 채택한다는 것이 아니다. 귀무가설을 기각할 통계적 근거가 부족하다는 의미이다.
그렇다면, p-value는 무엇인가? 실질적으로, scipy 패키지를 사용하면 p-value 를 기준으로 제공하기에 p-value에 대한 이해는 반드시 필요하다.
P-value란, 내가 뽑은 통계량이 귀무가설에 따라 나올 확률이 몇%인지 를 알아보는 것이다. 즉, P-value가 유의수준보다 작아야, 귀무가설이 기각된다. P-value가 유의수준보다 클 경우 귀무가설을 기각할 수 없다.
위의 예시에서 키가 172cm 이상일 확률은, Pr(Z>4)로, p-value는 0.00001 미만이 나와, 유의수준 5%에 비해 매우 작음을 알 수 있다. 다시 말해, 귀무가설을 기각할 수 있게 된다.
검정의 실제
검정은 다음 순서대로 진행한다. 예시는 위의 과정을 통해 확인하였으므로 생략한다.
1. 귀무가설 및 대립가설의 설정
2. 유의수준의 설정
3. 검정통계량 계산
4. 기각역 및 임계값 계산(p-val을 계산하기도 한다)
5. 귀무가설 기각여부 결정.
'Archive > 수학 & 통계학 관련' 카테고리의 다른 글
[Stat] 정규성의 검정 (0) | 2021.05.10 |
---|---|
[Math] Entropy (0) | 2021.05.01 |
[Prob] 주요 확률분포(이항, 정규, 포아송, 지수) (0) | 2021.04.28 |
[Stat] 공분산과 상관계수 (0) | 2021.04.28 |
[Prob] 베이즈 정리 (0) | 2021.04.28 |