[Data] Logistic Regression의 이탈도, 성능 측정
들어가기 Logistic Regression은 회귀의 방법론으로, 분류 문제를 푸는 방법이었다. logit값을 선형회귀로 예측하는 방법이고, 이를 다시 정리하면 sigmoid 함수의 형태의 식을 얻을 수 있다. 분류 문제의 풀이 방법이기에, 분류의 지표를 활용하는 방법도 있으나, Logistic Regression에서 자체로 생각할 수 있는 성능 측정 지표를 보려고 한다. 이탈도 이를 위해서는 먼저 이탈도(deviance)를 정의해야 한다. 여기서 yi의 경우는 x_i가 예측하는 0,1 의 값이고, y_hat은 y=1일 확률을 의미한다. 이 값의 경우, 모델이 정확하면 0 값을 가지게 되고, 나빠질수록 1에 가까워 진다. why?/ 정확하게는 log-loss로 받아들이는 쪽이 옳다. 실제 클래스 값과, ..
2022. 7. 27.
[TIL] 0725 아침스터디 - ROC curve, 비용민감 곡선
ROC Curve binary classification 모델의 평가 방법 중 하나. TPR/FPR TPR : 양성인 케이스에 대해 실제로 양성으로 잘 예측한 비율. FPR : 음성인 케이스에 대해 양성으로 잘못 예측한 비율. -> TPR이 높으면서, 1-FPR이 낮은 지점을 찾는 것이 중요할 것이고, 이를 위한 방법 중 하나가 ROC-Curve ROC Curve는 다음과 같이, 생겼고 curve-밑 부분의 넓이를 AUC라고 한다. curve가 이렇게 생긴 이유?, 어떻게 유도된 것일까? 양성인 분포와, 음성인 분포가 그림과 같다 가정하고 β값 이상을 가지면 무조건 양성이라고 판단하자. 그러면 그림과 같이 TP, TN, FP, FN이 나올 것이다. β값이 극단적으로 커지면, TPR, FPR이 모두 낮아지..
2022. 7. 25.