본문 바로가기
Archive/수학 & 통계학 관련

[Data] 선형회귀에서의 변수 선택(AIC, VIF)

by 다람이도토리 2021. 8. 7.

다중 공산성이란?

다중 공산성이란, 독립 변수의 일부가 다른 변수의 독립 변수의 조합으로 표현될 수 있는 경우를 뜻한다. 다중 공산성이 강할 경우, 부정확한 회귀 결과를 얻게 된다.

다중 공산성의 파악 방법, VIF

다중 공산성을 줄이기 위해서는 다른 독립변수에 의존하는 변수를 없애야 한다. 

- 산점도 그래프
- VIF(Variance Inflation Factor)

VIF를 통해, 다른 변수에 의존적인 변수를 찾아낼 수 있다.

i번째 변수의 VIF를 계산하면 다음과 같다.

여기서

는, 다른 변수로 i번째 변수를 선형회귀 할때의 R^2 값이다. 즉, 다른 변수에 의존적일 수록 VIF값이 커지게 된다.

AIC와 BIC

변수가 많을 경우, 자연스럽게 다중공산성의 가능성이 커지므로 변수를 어떻게 생각할지 고려해봐야 할 것이다. 

AIC와 BIC는 회귀에서, 모형을 비교하는 기준들의 이름이 된다.

- AIC : Akalike Information Criterion
- BIC : Bayesian Information Criterion

두 가지 지표 모두, 모형이 복잡해질수록 페널티를 부과하는 방식이다.

AIC, BIC

AIC의 공식은 다음과 같다.

여기서, k는 모형의 파라미터 개수이며, L은 모형의 likelihood이다.

모형의 Likeliood를 높이기 위해 불필요한 파라미터들을 추가할 수 있지만, 변수를 추가할 수록 패널티룰 부여하게 된다.

BIC의 경우는 BIC = -2ln(L) + k*log(n) 으로 주어진다. BIC의 경우는 표본 개수 * 파라미터의 개수로 페널티를 부과한다. 즉, 표본의 크기가 커질 수록 복잡한 모형을 더 강하게 처벌하는 구조이다.

 

* Remark. bias와 varicnae의 관계