다중 공산성이란?
다중 공산성이란, 독립 변수의 일부가 다른 변수의 독립 변수의 조합으로 표현될 수 있는 경우를 뜻한다. 다중 공산성이 강할 경우, 부정확한 회귀 결과를 얻게 된다.
다중 공산성의 파악 방법, VIF
다중 공산성을 줄이기 위해서는 다른 독립변수에 의존하는 변수를 없애야 한다.
- 산점도 그래프
- VIF(Variance Inflation Factor)
VIF를 통해, 다른 변수에 의존적인 변수를 찾아낼 수 있다.
i번째 변수의 VIF를 계산하면 다음과 같다.
여기서
는, 다른 변수로 i번째 변수를 선형회귀 할때의 R^2 값이다. 즉, 다른 변수에 의존적일 수록 VIF값이 커지게 된다.
AIC와 BIC
변수가 많을 경우, 자연스럽게 다중공산성의 가능성이 커지므로 변수를 어떻게 생각할지 고려해봐야 할 것이다.
AIC와 BIC는 회귀에서, 모형을 비교하는 기준들의 이름이 된다.
- AIC : Akalike Information Criterion
- BIC : Bayesian Information Criterion
두 가지 지표 모두, 모형이 복잡해질수록 페널티를 부과하는 방식이다.
AIC, BIC
AIC의 공식은 다음과 같다.
여기서, k는 모형의 파라미터 개수이며, L은 모형의 likelihood이다.
모형의 Likeliood를 높이기 위해 불필요한 파라미터들을 추가할 수 있지만, 변수를 추가할 수록 패널티룰 부여하게 된다.
BIC의 경우는 BIC = -2ln(L) + k*log(n) 으로 주어진다. BIC의 경우는 표본 개수 * 파라미터의 개수로 페널티를 부과한다. 즉, 표본의 크기가 커질 수록 복잡한 모형을 더 강하게 처벌하는 구조이다.
* Remark. bias와 varicnae의 관계
'Archive > 수학 & 통계학 관련' 카테고리의 다른 글
[Stat] 범주형 변수에 대한 검정 (0) | 2021.11.17 |
---|---|
[Stat] 집단간 평균 비교 (0) | 2021.09.03 |
[Prob] 베이즈 추정법이란? (0) | 2021.06.08 |
[Prob] 베타분포와 디리클레분포 (0) | 2021.06.07 |
[Cal] Matrix Calculus Review (0) | 2021.06.03 |