본문 바로가기

전체 글277

[Data] Logistic Regression의 이탈도, 성능 측정 들어가기 Logistic Regression은 회귀의 방법론으로, 분류 문제를 푸는 방법이었다. logit값을 선형회귀로 예측하는 방법이고, 이를 다시 정리하면 sigmoid 함수의 형태의 식을 얻을 수 있다. 분류 문제의 풀이 방법이기에, 분류의 지표를 활용하는 방법도 있으나, Logistic Regression에서 자체로 생각할 수 있는 성능 측정 지표를 보려고 한다. 이탈도 이를 위해서는 먼저 이탈도(deviance)를 정의해야 한다. 여기서 yi의 경우는 x_i가 예측하는 0,1 의 값이고, y_hat은 y=1일 확률을 의미한다. 이 값의 경우, 모델이 정확하면 0 값을 가지게 되고, 나빠질수록 1에 가까워 진다. why?/ 정확하게는 log-loss로 받아들이는 쪽이 옳다. 실제 클래스 값과, .. 2022. 7. 27.
[TIL] 0725 아침스터디 - ROC curve, 비용민감 곡선 ROC Curve binary classification 모델의 평가 방법 중 하나. TPR/FPR TPR : 양성인 케이스에 대해 실제로 양성으로 잘 예측한 비율. FPR : 음성인 케이스에 대해 양성으로 잘못 예측한 비율. -> TPR이 높으면서, 1-FPR이 낮은 지점을 찾는 것이 중요할 것이고, 이를 위한 방법 중 하나가 ROC-Curve ROC Curve는 다음과 같이, 생겼고 curve-밑 부분의 넓이를 AUC라고 한다. curve가 이렇게 생긴 이유?, 어떻게 유도된 것일까? 양성인 분포와, 음성인 분포가 그림과 같다 가정하고 β값 이상을 가지면 무조건 양성이라고 판단하자. 그러면 그림과 같이 TP, TN, FP, FN이 나올 것이다. β값이 극단적으로 커지면, TPR, FPR이 모두 낮아지.. 2022. 7. 25.
[Stat] 회귀계수의 유의성 회귀계수의 유의성 검정 일변수 선형 회귀라고 상황을 가정하고(일차함수), 선형회귀 문제를 푼다고 가정하자. 만일, 기울기가 의미가 없다면, 기울기는 0이 될 것이고, 식은 상수항 형태를 가질 것이다. 다시 말해, 회귀계수가 무의미하다면, 0으로 떨어질 것이다. 즉, 우리는 이 값이 0이 아닌지에 대해 검정을 해야 할 것이다. 이를 확인하는 가설을 세워보자. t-test를 통한 유의성 검정 Step 1. 가설 설정 H0 : b1 = 0 (회귀계수는 의미가 있다고 할 수 없다.) H1 : b1 ≠ 0 (회귀계수는 의미가 존재한다.) 즉, 계수가 0이냐 아니냐를 판단하는, t-test 양측 검정을 진행하게 되는 것이다. Step 2. t통계량 계산 * 회귀계수의 표준편차는 어떻게 구하는가? 기울기의 분산을 추.. 2022. 7. 18.
[Data] 군집화 결과 평가 들어가기 군집화를 실시했을 때, 군집이 잘 나누어졌는지 어떻게 평가할 수 있을까? 다른 분류나 회귀 문제 같은 경우는 어느정도의 정답이 있기에 f1-score나, R^2같은 명백한 지표가 존재한 반면, 군집화의 경우는 어떻게 평가해야 할지에 대해 고민해야 할 것이다. 이 방법을 알아보자. 어떤 것이 좋은 분류일까? 군집이 잘 분류가 되었다는 것의 의미닌, "군집 내 분산"은 최소로, "군집 간 분산"은 최대로 만드는 것이다. 즉, 집단이 차이가 있다면 최대한 이질성을 부여하고, 집단이 같다면 동질성을 최대한 높여주는 것이다. 큰 분류 군집화의 평가 방법은 크게, 내부 평가와 외부 평가로 나뉠 수 있다. 내부평가 : 스스로 클러스터링된 데이터를 바탕으로 평가. (밀도, 유사도 등을 판정!) 외부평가 : 이.. 2022. 7. 15.
[TIL] 0713 아침스터디 - hyperparameter tuning(2) Bayesian optimization 자세히보기. 목적 함수와, hyperparameter의 쌍을 활용하여, 목적함수를 최대로 만드는 최적해를 찾는 문제로 바꾼다. * 사용되는 두가지 함수 - 목적 함수를 추정하는 함수(surrogate model) - 다음 입력값 후보를 추천하는 함수(accquisition model) 그런데, 어떻게 진행하는 것일까? * 목적함수가 최대화/최소화 되는 매개변수를 찾기 위해, 사전 분포를 활용한다. Bayesian optimization 의 절차 개요 1. 임의로 데이터 포인트 생성 / 평가 2. surrogate model로 추정을 실시. 3. 현재의 결과로 목적 함수를 최대화 하는 x값 탐색 4. 해당 값에 대한 평가 실시 및 x를 데이터 포인트에 추가 탐색을 할.. 2022. 7. 13.
[TIL] 0711 아침스터디 - Hyper Parameter tuning(1) Hyper Parameter Tuning의 대표적 3가지 방법 1. Grid Search 2. Random Search 3. Bayesian Optimization Grid Search. Hyperparameter를 일정한 간격으로 변경하여, 최적의 파라미터를 찾아가는 기법. * 사전에 탐색할 값들을 미리 지정해주고, 그 값들의 모든 조합을 바탕으로 최고점을 찾아낸다. -> Problem : 최적의 해를 찾을 수 없다 / 동작 방식이 비효율적(찾을 필요가 없는 구간을 찾는다.) Random Search 위의 문제를 해결하기 위해 Hyperparameter의 값을 랜덤하게 선출하는 과정을 사용. * 사전에 탐색할 값들의 범위를 지정해주고, 가능한 조합을 바탕으로, 최고점을 찾는다. -> Grid Searc.. 2022. 7. 11.