Topics277 [TIL] ROC Curve 복습 ROC Curve를 생각하는 이유 Binary Classification에서 재현율과 특이도는 서로 trade-off 관계에 놓여 있음 재현율 : 실제 양성들 중 얼마나 양성이라고 대답했는가? 특이도 : 실제 음성들 중 얼마나 음성이라고 대답했는가? 이 두 지표의 trade-off 관계를 표현하는 곡선이 바로 ROC 곡선이다. 실제 ROC 곡선의 경우 x축에 (1-특이도), y축에 재현율을 두게 된다. Remark. (1-특이도를) FPR로 표현하는 경우도 많다. 위의 관점을 바탕으로 그래프를 해석해보자. FPR이 증가한다 = 음성을 양성으로 잘못 예측하는 경우가 늘어난다. 즉, 이 경우 자연스럽게 양성으로 판단하는 비율 자체가 늘어나므로, 재현율도 일반적으로는 늘어날 것이다. AUC는 ROC CURVE.. 2022. 3. 22. [Data] Imbalanced Data 다루는 Technique 정리 https://www.analyticsvidhya.com/blog/2021/06/5-techniques-to-handle-imbalanced-data-for-a-classification-problem/ 이 글의 내용을 중심으로, 추가 정보를 찾아보아 정리하였습니다. 한번쯤은, 다시 한번 생각의 흐름을 정리해볼 토픽이라 추가 내용을 조금 더 찾아보았습니다. 들어가기 분류 문제를 푸는 상황을 고려하자. 결과(target class)의 비율이 크게 차이가 나지 않다면, 깔끔하겠으나 세상은 쉽지 않다(?) Ex- 사기 검출 문제를 푼다고 생각하면, 사기 비율은 당연히 정상 케이스에 비해 지극히 적다. 불균형 데이터는 왜 문제가 될까? 불균형 데이터를 일반적인 방법대로 처리한다면 "편향"이 발생할 수 있게 된다.. 2022. 3. 20. [Data] 군집분석 - Gaussian Mixture Model Gaussian Mixture가 무엇인가? Gaussian Mixture Model을 이해하기 위해서는, 먼저 Gaussian Mixture이 무엇인지부터 알아야 한다. Gaussian Mixture은, 주어진 데이터들의 분포가 여러 Gaussian 분포의 합으로 나타낼 수 있다는 가정에서 출발하게 된다. 즉, 다음과 같은 상황을 고려할 수 있을 것이다. 위의 그림은 데이터가 3개의 Gaussian 분포의 합산으로 나타낸다는 가정을 이해하기 위한 그림이다. 데이터의 분포를 올바르게 추론하기 위해서는, 다음을 알아야 할 것이다. (1) 각 분포별로 평균과 분산이 어느정도 인가? (2) 주어진 데이터가, 각 gaussian 분포에 속할 확률 즉, 각 분포별로 속할 확률이 높은 데이터들끼리 군집을 묶어주게 된.. 2022. 3. 19. [TIL] curl 읽기 api 관련 작업을 많이 배우고 있는데 파이썬 형식이 아니라 curl로 적혀있는 경우가 있어.. 정리하려고 한다. 데이터를 받아오는 관점을 집중적으로 정리하려고 한다. 가장 많이 쓰인 4개는 다음과 같았다. -d : data와 함께 전달할 parameter값들. -H : header로 넘긴다. -X : 어떤 method를 써야 하는지 (Get인지, Post인지) -G : 어디로 보내야 하는지 url/ip 주ㅡ소 실제로 업무 환경에서 겪었던 상황을 예시로, 이거를 독해해보려고 한다. Example> # 출처 : https://developers.facebook.com/docs/marketing-api/insights curl -G \ -d "fields=impressions" \ -d "access_tok.. 2022. 3. 17. [Data] Shapely Value 간단하게 알아보기 Shapely Value를 생각하려는 목적은? "Shapley Value"는, 변수들간의 기여도를 파악하는 것을 목적으로 두고 있다. 구체적으로는 특정 변수가 예측에 얼마나 영향을 주는지 고려하기 위해, 이 변수와 관련된 모든 변수의 조합을 입력하며 결과를 비교, 최종적으로 변수의 기여도를 계산한다. 즉, 이렇게 하게 되면 '다른 변수와의 상호작용'을 고려하며 변수의 영향을 측정하게 된다. Shapely Value의 계산 기본적으로 하나의 특성에 대한 중요도를 알기 위해 - 여러 특성들의 조합을 구성 - 계산하려는 특성의 유무에 따른 평균적인 변화의 가중합을 계산하게 된다. (가중치는, 특성의 조합이 어떻게 될 수 있는지 경우의 수에 의해 결정된다) 즉 "이 특성이 사용되었는지?"와, "사용되지 않았는지.. 2022. 3. 17. [Data] 회귀진단이란 무엇일까? 회귀진단이란 무엇일까? 들어가기 회귀 분석을 실시하기 위해서는, 기본적으로 회귀분석의 가정에 대해 고려해야 한다. 회귀 분석의 4가지 가정 I. X와 Y의 관계는 선형적인 관계이다. (선형성) II. 잔차의 분포는 정규분포를 띄고 있다. (정규성) III. 잔차의 분산은 동일하다. (등분산성) IV. 잔차는 상호 독립이다. (독립성) 그러나, 이것들이 깨진다면, 어떻게 될까? 그리고 가정이 잘 성립하는지 어떻게 검토할 수 있을까? 또한, 데이터의 분포에 따라 이상치의 처리 등에 대해서도 고민해야 한다. 예를 들어, 위와 같은 상황에서는 outlier 때문에, 예측된 직선이 위로 치우치게 될 가능성이 높다. 즉, 점 하나 때문에 예측의 정확도가 떨어질 수 있다. 이러한 케이스를 잘 골라내어, 전체적인 경향.. 2022. 3. 14. 이전 1 ··· 16 17 18 19 20 21 22 ··· 47 다음