[Data] 이상탐지 문제 소개

Anomaly Detection 문제에 대한 소개

이상탐지 문제란, 주어진 문제에서 일반적인 특성을 따르지 않는 데이터를 찾아내는 작업이다.

Ex> 불량 데이터, 오류 데이터, 예외, 새로운 패턴 등등 에 의해 이상치가 발생한다.

즉, 일반적으로 다른 데이터의 범주와 확연이 구분이 될 때, 이를 이상치로 보게 된다.

Anomaly Detection의 종류

학습 데이터의 특성에 따라, 크게 다음 3가지로 나눌 수 있다.

(1) Supervised Anomaly Detection : 학습 데이터에 정상 데이터, 비정상 데이터 label이 모두 존재
(2) Semi-Supervised(One-Class) Anomaly Detection : 정상 데이터만을 가지고 학습
(3) Unsupervised Anomaly Detection : 데이터에 labeling이 되지 않은 경우

사용 가능한 여러 알고리즘

Anormaly Detection을 풀기 위해 여러 알고리즘을 도입해 볼 수 있다.

- Isolation tree : 트리 모델을 기반으로, 이상치를 탐색 (Outlier를 거를때에도 유용하게 사용!)
- SVM : 특히, 1-class SVM
- kNN method
- clustering : 어떤 cluster에도 속하지 않는 데이터를 고려하거나 밀도를 고려하는 등 다양한 방식 적용
- PCA / Autoencoder : 데이터를 압축하고 복원하는 과정에서 원본 데이터와의 차이를 확인

특히 PCA나 AutoEncoder 방식의 경우는 데이터에 labeling이 되어있지 않은 경우에도 유용하게 학습되며 차원 축소 및 복원의 과정에서 중요한 특성이 무엇인지 또한 발견할 수 있게 된다.

이를 그림으로 다시 보면 다음과 같다.

사진 출처 : https://leedakyeong.tistory.com/entry/Anomaly-Detection-by-Auto-Encoder

저작자표시 비영리 변경금지

'Archive > 데이터 분석 관련' 카테고리의 다른 글

[Data] 군집화 결과 평가 (0)	2022.07.15
[Data] 시계열 분석 - AR, MA, ARMA, ARIMA (0)	2022.04.07
[Data] Imbalanced Data 다루는 Technique 정리 (0)	2022.03.20
[Data] 군집분석 - Gaussian Mixture Model (0)	2022.03.19
[Data] Shapely Value 간단하게 알아보기 (0)	2022.03.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

전산 공부하는 사람

[Data] 이상탐지 문제 소개

Anomaly Detection 문제에 대한 소개

Anomaly Detection의 종류

사용 가능한 여러 알고리즘

'Archive > 데이터 분석 관련' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[Data] 이상탐지 문제 소개

Anomaly Detection 문제에 대한 소개

Anomaly Detection의 종류

사용 가능한 여러 알고리즘

'Archive > 데이터 분석 관련' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역