ROC Curve를 생각하는 이유
Binary Classification에서 재현율과 특이도는 서로 trade-off 관계에 놓여 있음
재현율 : 실제 양성들 중 얼마나 양성이라고 대답했는가?
특이도 : 실제 음성들 중 얼마나 음성이라고 대답했는가?
이 두 지표의 trade-off 관계를 표현하는 곡선이 바로 ROC 곡선이다.
실제 ROC 곡선의 경우 x축에 (1-특이도), y축에 재현율을 두게 된다.
Remark. (1-특이도를) FPR로 표현하는 경우도 많다.
위의 관점을 바탕으로 그래프를 해석해보자.
FPR이 증가한다 = 음성을 양성으로 잘못 예측하는 경우가 늘어난다.
즉, 이 경우 자연스럽게 양성으로 판단하는 비율 자체가 늘어나므로, 재현율도 일반적으로는 늘어날 것이다.
AUC는 ROC CURVE 에서 곡선의 아래쪽 면적을 나타낸다.
AUC = 1의 의미는, FPR = 0일때, Recall이 1, 즉 0을 1로 예측하는 경우도 없는데 1을 모두 1로 예측했다는 것
다시 말해, 퍼펙트한 상황이 AUC = 1이 된다.
AUC =0.5의 의미는, 특이도 + 민감도 = 1의 상황이다. 즉 0을 0으로 올바르게 예측하는 만큼, 1을 전혀 못맞추는 등, 성능적 개선 자체가 전혀 없어 최악의 상황이다.
'Archive > TIL' 카테고리의 다른 글
[TIL] 품사 태깅 알고리즘들. (0) | 2022.04.23 |
---|---|
[NLP] 텍스트 전처리 (0) | 2022.04.18 |
[TIL] curl 읽기 (0) | 2022.03.17 |
[TIL] 0313_ Python으로 request get/post하기 (0) | 2022.03.13 |
[TIL] python으로 jwt 구현하기 (0) | 2022.02.15 |