[Data] Outlier의 처리에 대하여 - 개요, 간단한 방법들
Outlier의 처리에 대하여 Outlier란? 이상치라고 불리는 Outlier를 간단하게 정의하면, 주어진 data에서 일반적인 pointer들이 가지고 있는 특성과 다르게 '튀는' 점들을 의미한다. 예를 들어, [-3, -2, 1, 2, 3, 999, 4, 7] 이런 관측값들이 모였다면 999가 Outlier라고 명백하게 생각할 수 있을 것이다. 왜 처리해야 하는가? 이러한 Outlier는 예측에 큰 영향을 주게 된다. 선형 회귀의 경우에 대해서만 고려해도, 직선의 fit 결과에 크게 영향을 주게 되며, 그보다 앞서서 단편적인 통계량에도 큰 변화를 주게된다. 따라서 Outlier에 대한 인지는 매우 중요하다는 것을 알 수 있다. 어떤 방법론들이 존재하는가? Outlier를 찾아내는 방법들은 다양하게 ..
2021. 10. 19.