본문 바로가기

Archive/데이터 분석 관련49

[Data] Logistic Regression의 이탈도, 성능 측정 들어가기 Logistic Regression은 회귀의 방법론으로, 분류 문제를 푸는 방법이었다. logit값을 선형회귀로 예측하는 방법이고, 이를 다시 정리하면 sigmoid 함수의 형태의 식을 얻을 수 있다. 분류 문제의 풀이 방법이기에, 분류의 지표를 활용하는 방법도 있으나, Logistic Regression에서 자체로 생각할 수 있는 성능 측정 지표를 보려고 한다. 이탈도 이를 위해서는 먼저 이탈도(deviance)를 정의해야 한다. 여기서 yi의 경우는 x_i가 예측하는 0,1 의 값이고, y_hat은 y=1일 확률을 의미한다. 이 값의 경우, 모델이 정확하면 0 값을 가지게 되고, 나빠질수록 1에 가까워 진다. why?/ 정확하게는 log-loss로 받아들이는 쪽이 옳다. 실제 클래스 값과, .. 2022. 7. 27.
[Data] 군집화 결과 평가 들어가기 군집화를 실시했을 때, 군집이 잘 나누어졌는지 어떻게 평가할 수 있을까? 다른 분류나 회귀 문제 같은 경우는 어느정도의 정답이 있기에 f1-score나, R^2같은 명백한 지표가 존재한 반면, 군집화의 경우는 어떻게 평가해야 할지에 대해 고민해야 할 것이다. 이 방법을 알아보자. 어떤 것이 좋은 분류일까? 군집이 잘 분류가 되었다는 것의 의미닌, "군집 내 분산"은 최소로, "군집 간 분산"은 최대로 만드는 것이다. 즉, 집단이 차이가 있다면 최대한 이질성을 부여하고, 집단이 같다면 동질성을 최대한 높여주는 것이다. 큰 분류 군집화의 평가 방법은 크게, 내부 평가와 외부 평가로 나뉠 수 있다. 내부평가 : 스스로 클러스터링된 데이터를 바탕으로 평가. (밀도, 유사도 등을 판정!) 외부평가 : 이.. 2022. 7. 15.
[Data] 시계열 분석 - AR, MA, ARMA, ARIMA 딥러닝 / Pytorch 교과서 Ch 7.1/7.2 내용 정리 시계열 문제란? 시간에 따라 변하는 데이터를 사용하여 추이 분석. 고전적 방법 : AR, MA, ARMA, ARIMA 사용 최근의 방법 : 딥러닝을 이용한 방법 AR, MA, ARMA, ARIMA 각각에 대한 정확한 이해 보다는, 어떤 개념인지만 간단하게 알아보고 실습을 통해 파악하는데에 중점을 둔다. AR (Auto Regressive) 자기회귀 모델은, 이전 관측값이 이후 관측 값에 영향을 준다는 아이디어에서 출발한다. 식의 형태를 보면 알수 있듯이, t 시점을 예측하기 위해 t-1 ~ t-p 총 p개의 시점을 활용한다. MA (Moving Average) 이동 평균의 경우는 오차를 활용하게 된다. 이전 데이터의 오차에서 현재 데이터의 상.. 2022. 4. 7.
[Data] 이상탐지 문제 소개 Anomaly Detection 문제에 대한 소개 이상탐지 문제란, 주어진 문제에서 일반적인 특성을 따르지 않는 데이터를 찾아내는 작업이다. Ex> 불량 데이터, 오류 데이터, 예외, 새로운 패턴 등등 에 의해 이상치가 발생한다. 즉, 일반적으로 다른 데이터의 범주와 확연이 구분이 될 때, 이를 이상치로 보게 된다. Anomaly Detection의 종류 학습 데이터의 특성에 따라, 크게 다음 3가지로 나눌 수 있다. (1) Supervised Anomaly Detection : 학습 데이터에 정상 데이터, 비정상 데이터 label이 모두 존재 (2) Semi-Supervised(One-Class) Anomaly Detection : 정상 데이터만을 가지고 학습 (3) Unsupervised Anomal.. 2022. 3. 27.
[Data] Imbalanced Data 다루는 Technique 정리 https://www.analyticsvidhya.com/blog/2021/06/5-techniques-to-handle-imbalanced-data-for-a-classification-problem/ 이 글의 내용을 중심으로, 추가 정보를 찾아보아 정리하였습니다. 한번쯤은, 다시 한번 생각의 흐름을 정리해볼 토픽이라 추가 내용을 조금 더 찾아보았습니다. 들어가기 분류 문제를 푸는 상황을 고려하자. 결과(target class)의 비율이 크게 차이가 나지 않다면, 깔끔하겠으나 세상은 쉽지 않다(?) Ex- 사기 검출 문제를 푼다고 생각하면, 사기 비율은 당연히 정상 케이스에 비해 지극히 적다. 불균형 데이터는 왜 문제가 될까? 불균형 데이터를 일반적인 방법대로 처리한다면 "편향"이 발생할 수 있게 된다.. 2022. 3. 20.
[Data] 군집분석 - Gaussian Mixture Model Gaussian Mixture가 무엇인가? Gaussian Mixture Model을 이해하기 위해서는, 먼저 Gaussian Mixture이 무엇인지부터 알아야 한다. Gaussian Mixture은, 주어진 데이터들의 분포가 여러 Gaussian 분포의 합으로 나타낼 수 있다는 가정에서 출발하게 된다. 즉, 다음과 같은 상황을 고려할 수 있을 것이다. 위의 그림은 데이터가 3개의 Gaussian 분포의 합산으로 나타낸다는 가정을 이해하기 위한 그림이다. 데이터의 분포를 올바르게 추론하기 위해서는, 다음을 알아야 할 것이다. (1) 각 분포별로 평균과 분산이 어느정도 인가? (2) 주어진 데이터가, 각 gaussian 분포에 속할 확률 즉, 각 분포별로 속할 확률이 높은 데이터들끼리 군집을 묶어주게 된.. 2022. 3. 19.