본문 바로가기
Archive/TIL

[TIL] ROC Curve 복습

by 다람이도토리 2022. 3. 22.

ROC Curve를 생각하는 이유

Binary Classification에서 재현율과 특이도는 서로 trade-off 관계에 놓여 있음

재현율 : 실제 양성들 중 얼마나 양성이라고 대답했는가?
특이도 : 실제 음성들 중 얼마나 음성이라고 대답했는가?

이 두 지표의 trade-off 관계를 표현하는 곡선이 바로 ROC 곡선이다.

실제 ROC 곡선의 경우 x축에 (1-특이도), y축에 재현율을 두게 된다.

Remark. (1-특이도를) FPR로 표현하는 경우도 많다.

https://en.wikipedia.org/wiki/Receiver_operating_characteristic

위의 관점을 바탕으로 그래프를 해석해보자.

FPR이 증가한다 = 음성을 양성으로 잘못 예측하는 경우가 늘어난다.
즉, 이 경우 자연스럽게 양성으로 판단하는 비율 자체가 늘어나므로, 재현율도 일반적으로는 늘어날 것이다.

AUC는 ROC CURVE 에서 곡선의 아래쪽 면적을 나타낸다.

AUC = 1의 의미는, FPR = 0일때, Recall이 1, 즉 0을 1로 예측하는 경우도 없는데 1을 모두 1로 예측했다는 것
다시 말해, 퍼펙트한 상황이 AUC = 1이 된다.

AUC =0.5의 의미는,  특이도 + 민감도 = 1의 상황이다. 즉 0을 0으로 올바르게 예측하는 만큼, 1을 전혀 못맞추는 등, 성능적 개선 자체가 전혀 없어 최악의 상황이다.

 

'Archive > TIL' 카테고리의 다른 글

[TIL] 품사 태깅 알고리즘들.  (0) 2022.04.23
[NLP] 텍스트 전처리  (0) 2022.04.18
[TIL] curl 읽기  (0) 2022.03.17
[TIL] 0313_ Python으로 request get/post하기  (0) 2022.03.13
[TIL] python으로 jwt 구현하기  (0) 2022.02.15