Anomaly Detection 문제에 대한 소개
이상탐지 문제란, 주어진 문제에서 일반적인 특성을 따르지 않는 데이터를 찾아내는 작업이다.
Ex> 불량 데이터, 오류 데이터, 예외, 새로운 패턴 등등 에 의해 이상치가 발생한다.
즉, 일반적으로 다른 데이터의 범주와 확연이 구분이 될 때, 이를 이상치로 보게 된다.
Anomaly Detection의 종류
학습 데이터의 특성에 따라, 크게 다음 3가지로 나눌 수 있다.
(1) Supervised Anomaly Detection : 학습 데이터에 정상 데이터, 비정상 데이터 label이 모두 존재
(2) Semi-Supervised(One-Class) Anomaly Detection : 정상 데이터만을 가지고 학습
(3) Unsupervised Anomaly Detection : 데이터에 labeling이 되지 않은 경우
사용 가능한 여러 알고리즘
Anormaly Detection을 풀기 위해 여러 알고리즘을 도입해 볼 수 있다.
- Isolation tree : 트리 모델을 기반으로, 이상치를 탐색 (Outlier를 거를때에도 유용하게 사용!)
- SVM : 특히, 1-class SVM
- kNN method
- clustering : 어떤 cluster에도 속하지 않는 데이터를 고려하거나 밀도를 고려하는 등 다양한 방식 적용
- PCA / Autoencoder : 데이터를 압축하고 복원하는 과정에서 원본 데이터와의 차이를 확인
특히 PCA나 AutoEncoder 방식의 경우는 데이터에 labeling이 되어있지 않은 경우에도 유용하게 학습되며 차원 축소 및 복원의 과정에서 중요한 특성이 무엇인지 또한 발견할 수 있게 된다.
이를 그림으로 다시 보면 다음과 같다.
'Archive > 데이터 분석 관련' 카테고리의 다른 글
[Data] 군집화 결과 평가 (0) | 2022.07.15 |
---|---|
[Data] 시계열 분석 - AR, MA, ARMA, ARIMA (0) | 2022.04.07 |
[Data] Imbalanced Data 다루는 Technique 정리 (0) | 2022.03.20 |
[Data] 군집분석 - Gaussian Mixture Model (0) | 2022.03.19 |
[Data] Shapely Value 간단하게 알아보기 (0) | 2022.03.17 |