본문 바로가기
Archive/데이터 분석 관련

[Data] ROC Curve

by 다람이도토리 2021. 8. 24.

ROC Curve란?

임계값에서 분류 모델의 성능을 보여주는 그래프이다. 임계값 부근에서는 분류가 잘못 일어나는 경우도 발생하는데, 이에 대한 성능을 그래프를 통해 측정할 수 있다.

용어 정리

다시 한번, 이진 분류 문제에서의 용어를 정리해보자.

  실제 양성 실제 음성
양성 판단 TP FP
음성 판단 FN TN

TPR : 실제로 양성인 케이스를 양성으로 분류하는 정도
FPR : 실제로 음성인 케이스를 양성으로 잘못 분류하는 정도

ROC Curve 이해하기

ROC Curve는 임계값의 변화에 따른 FPR과 TPR의 변화를 살펴보는 것이 목적이다.

만일, 양성 클래스와 음성 클래스가 잘 분리되었다면, FPR대비 TPR값이 더 크게 나올 것이다.

이 그림을 통해 이해해보자. 임계보다 작으면 음성, 임계보다 크면 양성으로 분류하는 상황을 고려하면 TN, FP, FN, TP 4가지 영역을 위의 그림과 같이 찾을 수 있을 것이다.

만일 음성과 양성이 아예 구분이 안된다면, 음성 = 양성일 것이고  이는 어느 시점에서나 TPR=FPR 일 것이다.

양성이 조금 더 음성과 분리될 수록, FPR대비 TPR의 비율은 증가하게 된다.

 

ROC Curve

실제 ROC Curve는 다음과 같이 생겼다.

(사진출처 : 위키피디아)

 

만일 양성 클래스와 음성 클래스가 구분이 하나도 안되어 완벽히 같다면, ROC Curve는 직선일 것이고, 이는 가장 최악의 결과를 나타내는 것이다.

분류가 더 잘 될수록 곡선은 좌측 상향으로 올라가는 모습을 보이게 된다. 그래서 완벽할 경우  FPR값에 상관 없이 TPR = 1이 된다.