본문 바로가기
Archive/TIL

[TIL] 0704 아침스터디 / VIF, LDA

by 다람이도토리 2022. 7. 4.

# VIF
다중공산성을 진단할 수 있는 지표.

다중공산성  : 회귀문제에서 독립변수간, 강한 상관관계가 나타나는 문제 (회귀분석의 기본 가정에 위배!)
* 다중 공산성이 강하게 나타날 경우 여러 변수들 중 어떤 변수가 Y변수에 어느정도의 영향을 미치는지 정확하게 알 수 없어짐.

* 다중공산성의 판단법?
회귀분석 결과의 각 독립변수의 p-val이 높다면? 의심.
독립변수들간의 상관관계를 통해 확인 가능,
VIF를 통해 다중공산성 점검 가능.

VIF란 ?

i번째 변수를 제외하고, 만든 회귀 모델의 R^2값을 대입하여 계산한다.
VIF > 10이라면, 식을 정리해보면 Ri > 10임을 알 수 있다. 즉 해당 변수가 없어도 설명이 잘 이루어지고 있음을 안다.

보통, VIF > 10일 경우, 해당 변수의 제외를 고려해볼 수 있을 것이다.

 

# LDA (Linear Discriminant Analysis)

선형판별분석은 PCA와 마찬가지로, 차원 축소 방법 중 하나.

LDA의 주 목적은, Target class끼리, "최대한 분리가 되는" 축을 찾아보자.

-> 이렇기에, LDA가 잘 되었다고 말하기 위해서는
(1) 집단 간 분산은 최대한 크게 가져가야 하고,
(2) 집단 내 분산은 최대한 작게 가져가야 한다.

* SVM같은 분류 알고리즘을 사용하기 전에, 클래스간 거리를 멀리 떨어트릴 수 있으므로 사전에 사용하기 좋다.

방향을 어떻게 찾아야 하는가?(수학)

위의 문제를 binary 문제인 상황을 고려하여 표현하자. (Fisher의 선형판별)

위의 식을 최대화 한다는 의미는, class간 평균의 차이는 크게, 분산은 최대한 작게 가져가려는 것이다.
이를 최대화 하는, 축을 찾는 문제로 해석이 가능하다.

하나의 축(w) 방향으로 위의 식을 표현할 수 있어야 할 것이다.

평균 표현

https://knowable.tistory.com/41

즉, 평균의 차이의 제곱은, 결국 집단간 산포를 표현하게 된다.

분산 표현

https://knowable.tistory.com/41

목표함수 표현 및 이후 풀이법

위의 목표를 축 벡터를 활용한 식으로 표현 후 미분하여, 최적점을 찾는 과정 진행.