본문 바로가기

Archive171

[Data] 군집분석 - Gaussian Mixture Model Gaussian Mixture가 무엇인가? Gaussian Mixture Model을 이해하기 위해서는, 먼저 Gaussian Mixture이 무엇인지부터 알아야 한다. Gaussian Mixture은, 주어진 데이터들의 분포가 여러 Gaussian 분포의 합으로 나타낼 수 있다는 가정에서 출발하게 된다. 즉, 다음과 같은 상황을 고려할 수 있을 것이다. 위의 그림은 데이터가 3개의 Gaussian 분포의 합산으로 나타낸다는 가정을 이해하기 위한 그림이다. 데이터의 분포를 올바르게 추론하기 위해서는, 다음을 알아야 할 것이다. (1) 각 분포별로 평균과 분산이 어느정도 인가? (2) 주어진 데이터가, 각 gaussian 분포에 속할 확률 즉, 각 분포별로 속할 확률이 높은 데이터들끼리 군집을 묶어주게 된.. 2022. 3. 19.
[TIL] curl 읽기 api 관련 작업을 많이 배우고 있는데 파이썬 형식이 아니라 curl로 적혀있는 경우가 있어.. 정리하려고 한다. 데이터를 받아오는 관점을 집중적으로 정리하려고 한다. 가장 많이 쓰인 4개는 다음과 같았다. -d : data와 함께 전달할 parameter값들. -H : header로 넘긴다. -X : 어떤 method를 써야 하는지 (Get인지, Post인지) -G : 어디로 보내야 하는지 url/ip 주ㅡ소 실제로 업무 환경에서 겪었던 상황을 예시로, 이거를 독해해보려고 한다. Example> # 출처 : https://developers.facebook.com/docs/marketing-api/insights curl -G \ -d "fields=impressions" \ -d "access_tok.. 2022. 3. 17.
[Data] Shapely Value 간단하게 알아보기 Shapely Value를 생각하려는 목적은? "Shapley Value"는, 변수들간의 기여도를 파악하는 것을 목적으로 두고 있다. 구체적으로는 특정 변수가 예측에 얼마나 영향을 주는지 고려하기 위해, 이 변수와 관련된 모든 변수의 조합을 입력하며 결과를 비교, 최종적으로 변수의 기여도를 계산한다. 즉, 이렇게 하게 되면 '다른 변수와의 상호작용'을 고려하며 변수의 영향을 측정하게 된다. Shapely Value의 계산 기본적으로 하나의 특성에 대한 중요도를 알기 위해 - 여러 특성들의 조합을 구성 - 계산하려는 특성의 유무에 따른 평균적인 변화의 가중합을 계산하게 된다. (가중치는, 특성의 조합이 어떻게 될 수 있는지 경우의 수에 의해 결정된다) 즉 "이 특성이 사용되었는지?"와, "사용되지 않았는지.. 2022. 3. 17.
[Data] 회귀진단이란 무엇일까? 회귀진단이란 무엇일까? 들어가기 회귀 분석을 실시하기 위해서는, 기본적으로 회귀분석의 가정에 대해 고려해야 한다. 회귀 분석의 4가지 가정 I. X와 Y의 관계는 선형적인 관계이다. (선형성) II. 잔차의 분포는 정규분포를 띄고 있다. (정규성) III. 잔차의 분산은 동일하다. (등분산성) IV. 잔차는 상호 독립이다. (독립성) 그러나, 이것들이 깨진다면, 어떻게 될까? 그리고 가정이 잘 성립하는지 어떻게 검토할 수 있을까? 또한, 데이터의 분포에 따라 이상치의 처리 등에 대해서도 고민해야 한다. 예를 들어, 위와 같은 상황에서는 outlier 때문에, 예측된 직선이 위로 치우치게 될 가능성이 높다. 즉, 점 하나 때문에 예측의 정확도가 떨어질 수 있다. 이러한 케이스를 잘 골라내어, 전체적인 경향.. 2022. 3. 14.
[TIL] 0313_ Python으로 request get/post하기 - 기본. request import requests url = 'http://www.naver.com' response = requests.get(url = url) print(response) url로 get을 하면, 기본적인 응답을 받을 수 있다. Remark. 응답 메세지 200 : 성공(요청이 성공적으로 수행됨) 201 : 요청에 따른 새로운 리소스 생성 400 : Bad Request. 문법 오류에 의한 실패 401 : 권한 인증 필요할 때 404 : Not Found. 클라이언트가 요청하는 리소스를 서버에서 찾을 수 없음. 500 : 서버에서 request 처리 도중 에러 발생 504 : timeout - get의 기본 구조 import requests import json URL = 'ur.. 2022. 3. 13.
[Data] Topic Modeling - LDA 이번에는, 주어진 글에서 주제를 추출할 수 있는 "topic modeling"에 대해 알아보고자 한다. 그 중 한 가지 방법인 Latent Dirichlet Allocation, LDA에 대해 알아보고자 한다. LDA는 뭐를 하는 건가? LDA는 주어진 문서에 대해서, 각 문서들이 어떤 주제를 가질 수 있는지 "확률"로 표현하게 된다. LDA의 가정 LDA는 다음을 가정하여 모델이 만들어지게 된다. - 빈도수 기반의 표현 방법(ex-TF-IDF 등) - 단어의 순서는 토픽에 기여하지 않는다. - 문서에 사용할 토픽의 혼합을 확률 분포에 기반하여 결정한다. LDA의 수행 순서 1) 토픽의 개수 k개를 지정한다. 2) 모든 단어를 k개 중 하나의 토픽에 할당한다. 랜덤 할당이므로, 틀렸을 것이기에 학습 과정.. 2022. 3. 11.