본문 바로가기
Archive/데이터 분석 관련

[Data] 이상탐지 문제 소개

by 다람이도토리 2022. 3. 27.

Anomaly Detection 문제에 대한 소개

이상탐지 문제란, 주어진 문제에서 일반적인 특성을 따르지 않는 데이터를 찾아내는 작업이다.

Ex> 불량 데이터, 오류 데이터, 예외, 새로운 패턴 등등 에 의해 이상치가 발생한다.

즉, 일반적으로 다른 데이터의 범주와 확연이 구분이 될 때, 이를 이상치로 보게 된다.

Anomaly Detection의 종류

학습 데이터의 특성에 따라, 크게 다음 3가지로 나눌 수 있다.

(1) Supervised Anomaly Detection : 학습 데이터에 정상 데이터, 비정상 데이터 label이 모두 존재
(2) Semi-Supervised(One-Class) Anomaly Detection : 정상 데이터만을 가지고 학습
(3) Unsupervised Anomaly Detection : 데이터에 labeling이 되지 않은 경우

사용 가능한 여러 알고리즘

Anormaly Detection을 풀기 위해 여러 알고리즘을 도입해 볼 수 있다.

- Isolation tree : 트리 모델을 기반으로, 이상치를 탐색 (Outlier를 거를때에도 유용하게 사용!)
- SVM : 특히, 1-class SVM
- kNN method
- clustering : 어떤 cluster에도 속하지 않는 데이터를 고려하거나 밀도를 고려하는 등 다양한 방식 적용
- PCA / Autoencoder : 데이터를 압축하고 복원하는 과정에서 원본 데이터와의 차이를 확인

특히 PCA나 AutoEncoder 방식의 경우는 데이터에 labeling이 되어있지 않은 경우에도 유용하게 학습되며 차원 축소 및 복원의 과정에서 중요한 특성이 무엇인지 또한 발견할 수 있게 된다.

이를 그림으로 다시 보면 다음과 같다.

사진 출처 : https://leedakyeong.tistory.com/entry/Anomaly-Detection-by-Auto-Encoder