본문 바로가기

Archive/수학 & 통계학 관련27

[Stat] 회귀계수의 유의성 회귀계수의 유의성 검정 일변수 선형 회귀라고 상황을 가정하고(일차함수), 선형회귀 문제를 푼다고 가정하자. 만일, 기울기가 의미가 없다면, 기울기는 0이 될 것이고, 식은 상수항 형태를 가질 것이다. 다시 말해, 회귀계수가 무의미하다면, 0으로 떨어질 것이다. 즉, 우리는 이 값이 0이 아닌지에 대해 검정을 해야 할 것이다. 이를 확인하는 가설을 세워보자. t-test를 통한 유의성 검정 Step 1. 가설 설정 H0 : b1 = 0 (회귀계수는 의미가 있다고 할 수 없다.) H1 : b1 ≠ 0 (회귀계수는 의미가 존재한다.) 즉, 계수가 0이냐 아니냐를 판단하는, t-test 양측 검정을 진행하게 되는 것이다. Step 2. t통계량 계산 * 회귀계수의 표준편차는 어떻게 구하는가? 기울기의 분산을 추.. 2022. 7. 18.
[Data] 대리분석 개요 출처 : XAI 설명 가능한 인공지능, 인공지능을 해부하다. Chapter 5-1,2 대리분석이란? 대리분석이란, 본래의 인공지능 모델이 너무 복잡해서 분석이 어려울 때, 유사한 기능을 흉내내는 모델 여러개를 만들어 본래 모델을 해석하는 기법을 말한다. 이 대리분석에 사용할 모델을 결정할 조건은 다음과 같다. (1) 원래의 모델보다 학습하기 쉬워야 한다. (2) 대리분석에 사용할 모델은 "설명 가능"해야 한다. (3) 원래의 모델을 유사하게 흉내낼 수 있으면 된다. 이렇게 할 경우, 대리분석의 모델은 원래 모델보다는 정확도는 조금 떨어지나, 충분히 모델을 대변할 수 있다. 이러한 대리 분석의 종류는 - 글로벌 대리 분석 : 전체 학습 데이터를 사용해 대리 분석 모델을 만든다. - 로컬 대리 분석 : 데이.. 2022. 6. 9.
[Stat] 다중 검정이란? 들어가기 - t test를 여러 집단에 사용해도 괜찮은가? T-test는 기본적으로 두 집단의 평균을 비교하기 위해 사용된다. 하지만 이런 생각을 해 볼 수 있을 것이다. " 두 집단에 대한 비교라면, 여러 집단에서도 두 개씩, 쌍을 지어 비교하면 안 되는가?" 이렇게 했을때의 문제점이 무엇인지부터 고려하자. 1종오류를 고려하자. 귀무가설이 참인데, 이를 기각하게 되는 확률을 "1종 오류"라고 한다. 우리는 1종 오류를 범할 확률을 계산해보려고 한다. - 만일, 두 집단에 대해서만 평균 비교를 진행한다면?, 1종 오류를 범할 확률 = 유의 수준 - 만일, 세 집단에 대해서 평균 비교를 진행한다면? 1종 오류를 단 한번도 범하지 않을 확률은, (1- 유의수준)^3이 된다. 3승을 한 이유는, 비교가 3번 .. 2022. 2. 28.
[Data] 부트스트랩과 순열검정 들어가기 : 재표본 추출(Resampling)이란? 우선, 재표본 추출이란 데이터에서의 랜덤한 변동성을 알아내기 위해, 관찰된 데이터의 값에서 표본을 반복적으로 추출하는 행위를 뜻한다. 머신러닝에서도, 재표본 추출 개념을 고려할 수 있는데 역시 표본을 반복해서 재추출하고 재추출된 표본에 모형을 적합하여, 분류 성능을 높이는 개념을 의미한다. 여기에서는 '통계학'에서 말하는 Resamling에 대해 고려하려고 한다. 크게 다음의 두 가지에 대해 생각해 볼 수 있다. 1. 부트스트랩 2. 순열검정 부트스트랩 모수의 표본 분포를 추정하는 쉽고 효과적인 방법으로, 부트스트랩을 활용할 수 있다. 이를 위해, 현재 있는 표본에서 표본을 "복원추출 하고", 각 표본에 대한 통계량 등을 다시 계산하게 된다. 데이터 수.. 2022. 2. 27.
[Stat] t-분포와 F-분포 t-분포 z 통계량에서 t 통계량까지. 우선 정규분포의 표본을 표준편차로 나눠 정규화한 z통계량의 경우에는 하나의 문제가 있다. 이를 구하기 위해서는 우리는 확률분포의 정확한 표준편차를 알아야 한다. 그런데 모집단 전체에 대한 정보를 알 수 없을 때 우리는 표본을 추출하여 사용해야 할 것이다. 현실적으로는 표준편차를 정확히 알 수 없기에 표본에서 측정한 표본표분편차로 정규화 할 수 밖에 없다. 정규분포로부터 얻은 N개의 표본에서 계산한 표본평균을 "표본표준편차"로 정규화한 값을 t 통계량이라고 한다. 여기서 표본평균과, 표본표준편차는 다음과 같이 주어진다. t통계량은 자유도가 N-1인 스튜던트 t분포를 이루게 된다.. F-분포 카이제곱분포에서 F-분포까지. F-분포란, 카이제곱 분포를 따르는 독립적인 두.. 2022. 1. 23.
[Stat] 표본평균 및 표본분산의 분포. 표본 평균의 분포 정규분포의 모집단 N(μ, σ²)에서 무작위로 추출한 n개의 측정치의 평균과 분산을 구하면 다음과 같다. 표본들의 평균을 넣고 식을 쪼개면, 쉽게 유도할 수 있으므로 자세한 유도 과정은 생략한다. 중심극한 정리 여기서, 중심극한 정리를 생각해 볼 수 있다. 중심극한 정리는 다음과 같다. Thm. 중심극한 정리 평균이 μ이고, 분산이 σ²인 임의의 모집단으로부터 표본평균 x_bar를 n개 추출한다면, n이 충분히 클 때 표본평균들의 분포는 근사적으로 N(μ, σ²/n)을 따르게 된다. 중요한 포인트는 (1) 임의의 모집단에서, (2) 표본평균의 분포가 어떻게 될지를 보는 것이다. 평균이 아니라 분산이라면? - 카이제곱분포 먼저, 카이제곱분포란? k개의 서로 다른, 각각이 독립인 표준정규분.. 2022. 1. 21.