ROC Curve란?
임계값에서 분류 모델의 성능을 보여주는 그래프이다. 임계값 부근에서는 분류가 잘못 일어나는 경우도 발생하는데, 이에 대한 성능을 그래프를 통해 측정할 수 있다.
용어 정리
다시 한번, 이진 분류 문제에서의 용어를 정리해보자.
실제 양성 | 실제 음성 | |
양성 판단 | TP | FP |
음성 판단 | FN | TN |
TPR : 실제로 양성인 케이스를 양성으로 분류하는 정도
FPR : 실제로 음성인 케이스를 양성으로 잘못 분류하는 정도
ROC Curve 이해하기
ROC Curve는 임계값의 변화에 따른 FPR과 TPR의 변화를 살펴보는 것이 목적이다.
만일, 양성 클래스와 음성 클래스가 잘 분리되었다면, FPR대비 TPR값이 더 크게 나올 것이다.
이 그림을 통해 이해해보자. 임계보다 작으면 음성, 임계보다 크면 양성으로 분류하는 상황을 고려하면 TN, FP, FN, TP 4가지 영역을 위의 그림과 같이 찾을 수 있을 것이다.
만일 음성과 양성이 아예 구분이 안된다면, 음성 = 양성일 것이고 이는 어느 시점에서나 TPR=FPR 일 것이다.
양성이 조금 더 음성과 분리될 수록, FPR대비 TPR의 비율은 증가하게 된다.
ROC Curve
실제 ROC Curve는 다음과 같이 생겼다.
(사진출처 : 위키피디아)
만일 양성 클래스와 음성 클래스가 구분이 하나도 안되어 완벽히 같다면, ROC Curve는 직선일 것이고, 이는 가장 최악의 결과를 나타내는 것이다.
분류가 더 잘 될수록 곡선은 좌측 상향으로 올라가는 모습을 보이게 된다. 그래서 완벽할 경우 FPR값에 상관 없이 TPR = 1이 된다.
'Archive > 데이터 분석 관련' 카테고리의 다른 글
[Data] Data Clustering 정리 (0) | 2021.09.30 |
---|---|
[Data] kNN 이해하기 및 활용 (0) | 2021.08.28 |
[Data] 로지스틱 회귀분석의 해석 및 개선 (0) | 2021.08.23 |
[Data] Ensemble - Gradient Boosting (0) | 2021.08.02 |
[Data] UnderSampling, OverSampling (0) | 2021.07.31 |