본문 바로가기

Archive/데이터 분석 관련49

[Data] Shapely Value 간단하게 알아보기 Shapely Value를 생각하려는 목적은? "Shapley Value"는, 변수들간의 기여도를 파악하는 것을 목적으로 두고 있다. 구체적으로는 특정 변수가 예측에 얼마나 영향을 주는지 고려하기 위해, 이 변수와 관련된 모든 변수의 조합을 입력하며 결과를 비교, 최종적으로 변수의 기여도를 계산한다. 즉, 이렇게 하게 되면 '다른 변수와의 상호작용'을 고려하며 변수의 영향을 측정하게 된다. Shapely Value의 계산 기본적으로 하나의 특성에 대한 중요도를 알기 위해 - 여러 특성들의 조합을 구성 - 계산하려는 특성의 유무에 따른 평균적인 변화의 가중합을 계산하게 된다. (가중치는, 특성의 조합이 어떻게 될 수 있는지 경우의 수에 의해 결정된다) 즉 "이 특성이 사용되었는지?"와, "사용되지 않았는지.. 2022. 3. 17.
[Data] 회귀진단이란 무엇일까? 회귀진단이란 무엇일까? 들어가기 회귀 분석을 실시하기 위해서는, 기본적으로 회귀분석의 가정에 대해 고려해야 한다. 회귀 분석의 4가지 가정 I. X와 Y의 관계는 선형적인 관계이다. (선형성) II. 잔차의 분포는 정규분포를 띄고 있다. (정규성) III. 잔차의 분산은 동일하다. (등분산성) IV. 잔차는 상호 독립이다. (독립성) 그러나, 이것들이 깨진다면, 어떻게 될까? 그리고 가정이 잘 성립하는지 어떻게 검토할 수 있을까? 또한, 데이터의 분포에 따라 이상치의 처리 등에 대해서도 고민해야 한다. 예를 들어, 위와 같은 상황에서는 outlier 때문에, 예측된 직선이 위로 치우치게 될 가능성이 높다. 즉, 점 하나 때문에 예측의 정확도가 떨어질 수 있다. 이러한 케이스를 잘 골라내어, 전체적인 경향.. 2022. 3. 14.
[Data] Topic Modeling - LDA 이번에는, 주어진 글에서 주제를 추출할 수 있는 "topic modeling"에 대해 알아보고자 한다. 그 중 한 가지 방법인 Latent Dirichlet Allocation, LDA에 대해 알아보고자 한다. LDA는 뭐를 하는 건가? LDA는 주어진 문서에 대해서, 각 문서들이 어떤 주제를 가질 수 있는지 "확률"로 표현하게 된다. LDA의 가정 LDA는 다음을 가정하여 모델이 만들어지게 된다. - 빈도수 기반의 표현 방법(ex-TF-IDF 등) - 단어의 순서는 토픽에 기여하지 않는다. - 문서에 사용할 토픽의 혼합을 확률 분포에 기반하여 결정한다. LDA의 수행 순서 1) 토픽의 개수 k개를 지정한다. 2) 모든 단어를 k개 중 하나의 토픽에 할당한다. 랜덤 할당이므로, 틀렸을 것이기에 학습 과정.. 2022. 3. 11.
[Data] MAB(Multi-Armed Bandits) 찍먹하기 들어가며 MAB가 무엇이기 알아보기 전에 A/B Test로 돌아가고자 한다. 전통적인 A/B Test에는 여러 단점들이 존재한다. 대표적인 몇 가지 단 - 충분한 표본이 있지 않을 때, 테스트의 결과를 확신할 수 있을까? - 취향의 변화를 반영하기가 어렵다. - Test 기간이 길어질수록, (진행 비용등에 의해), 단기적ㅇ로 손해가 발생할 수 있다. MAB(Multi-Armed Bandit) MAB는, 슬롯 머신의 손잡이를(One-Armed Bandit)이라고 부르는 데에서 이름이 유래했다. 슬롯 머신이 여러대가 있다면, "어느 슬롯머신의 보상 확률이 가장 높고, 어느 슬롯 머신의 보상이 가장 큰지?'를 찾는 것이 중요할 것이다. 이러한 정보가 없다면 "어떤 순서로, 어떻게 슬롯머신을 당겨야 빠르게 가장.. 2022. 3. 4.
[Data] Missing Value의 여러 대체 방법 들어가기 데이터에 결측치가 존재할 경우 이를 제외하거나, 혹은 다른 값으로 대체할 방법을 생각해야 한다. 여러 대체 방법들에 대해서 알아보고 정리하고자 한다. 대체하지 않고 삭제하는 경우도 존재. 물론 결측치를 대체하지 않고 삭제를 할 수도 있다. 결측치가 많지 않을 경우에는 생각해 볼 수 있는 방법이나, 몇 가지 문제가 존재한다. - Data Sample 축소 - 결측치 제거로 인한 편향 발생 가능성 증가 이 중 우선, 단일 대체법에 대해 알아보려고 한다. 단일 대체법 방법 1 ] 평균 대체법 어떤 변수의 결측값을, 관측된 값의 평균값으로 대체하는 방법이다. pandas에서는 쉽게 평균 대체를 진행할 수 있다. # 각 열을 평균값으로 채우기 df.fillna(df.mean()) Remark. 평균 값이.. 2022. 2. 23.
[Data] PCA의 주성분 개수 결정 방법 Introduction PCA, 주성분 분석을 할때, 가장 고려해야 하는 부분은 "그래서 몇 차원으로 줄일 것인데?" 이다. 이 주성분의 수를 결정하는 여러 방법들에 대해 알아보고자 한다. 방법 1 > Scree Plot 방법 2 > 고윳값을 활용한 결정 : Average of Eigenvalue (누적 기여율) 주의. PCA를 할 때는 반드시 변수들의 단위를 표준화시켜줘야 한다. 고윳값을 활용한 결정 PCA의 고윳값을 통해서는 설명 가능한 분산의 비율이 어느정도인지를 알 수 있다. 고윳값이 0.7 이상인지, 누적기여율이 80%가 넘어가는 지점까지의 주성분들을 기준으로 판단하게 된다. 코드를 통한 실제 확인 import numpy as np import pandas as pd from sklearn im.. 2022. 2. 17.