본문 바로가기

Topics277

[TIL] 0313_ Python으로 request get/post하기 - 기본. request import requests url = 'http://www.naver.com' response = requests.get(url = url) print(response) url로 get을 하면, 기본적인 응답을 받을 수 있다. Remark. 응답 메세지 200 : 성공(요청이 성공적으로 수행됨) 201 : 요청에 따른 새로운 리소스 생성 400 : Bad Request. 문법 오류에 의한 실패 401 : 권한 인증 필요할 때 404 : Not Found. 클라이언트가 요청하는 리소스를 서버에서 찾을 수 없음. 500 : 서버에서 request 처리 도중 에러 발생 504 : timeout - get의 기본 구조 import requests import json URL = 'ur.. 2022. 3. 13.
[Data] Topic Modeling - LDA 이번에는, 주어진 글에서 주제를 추출할 수 있는 "topic modeling"에 대해 알아보고자 한다. 그 중 한 가지 방법인 Latent Dirichlet Allocation, LDA에 대해 알아보고자 한다. LDA는 뭐를 하는 건가? LDA는 주어진 문서에 대해서, 각 문서들이 어떤 주제를 가질 수 있는지 "확률"로 표현하게 된다. LDA의 가정 LDA는 다음을 가정하여 모델이 만들어지게 된다. - 빈도수 기반의 표현 방법(ex-TF-IDF 등) - 단어의 순서는 토픽에 기여하지 않는다. - 문서에 사용할 토픽의 혼합을 확률 분포에 기반하여 결정한다. LDA의 수행 순서 1) 토픽의 개수 k개를 지정한다. 2) 모든 단어를 k개 중 하나의 토픽에 할당한다. 랜덤 할당이므로, 틀렸을 것이기에 학습 과정.. 2022. 3. 11.
[Data] MAB(Multi-Armed Bandits) 찍먹하기 들어가며 MAB가 무엇이기 알아보기 전에 A/B Test로 돌아가고자 한다. 전통적인 A/B Test에는 여러 단점들이 존재한다. 대표적인 몇 가지 단 - 충분한 표본이 있지 않을 때, 테스트의 결과를 확신할 수 있을까? - 취향의 변화를 반영하기가 어렵다. - Test 기간이 길어질수록, (진행 비용등에 의해), 단기적ㅇ로 손해가 발생할 수 있다. MAB(Multi-Armed Bandit) MAB는, 슬롯 머신의 손잡이를(One-Armed Bandit)이라고 부르는 데에서 이름이 유래했다. 슬롯 머신이 여러대가 있다면, "어느 슬롯머신의 보상 확률이 가장 높고, 어느 슬롯 머신의 보상이 가장 큰지?'를 찾는 것이 중요할 것이다. 이러한 정보가 없다면 "어떤 순서로, 어떻게 슬롯머신을 당겨야 빠르게 가장.. 2022. 3. 4.
[Stat] 다중 검정이란? 들어가기 - t test를 여러 집단에 사용해도 괜찮은가? T-test는 기본적으로 두 집단의 평균을 비교하기 위해 사용된다. 하지만 이런 생각을 해 볼 수 있을 것이다. " 두 집단에 대한 비교라면, 여러 집단에서도 두 개씩, 쌍을 지어 비교하면 안 되는가?" 이렇게 했을때의 문제점이 무엇인지부터 고려하자. 1종오류를 고려하자. 귀무가설이 참인데, 이를 기각하게 되는 확률을 "1종 오류"라고 한다. 우리는 1종 오류를 범할 확률을 계산해보려고 한다. - 만일, 두 집단에 대해서만 평균 비교를 진행한다면?, 1종 오류를 범할 확률 = 유의 수준 - 만일, 세 집단에 대해서 평균 비교를 진행한다면? 1종 오류를 단 한번도 범하지 않을 확률은, (1- 유의수준)^3이 된다. 3승을 한 이유는, 비교가 3번 .. 2022. 2. 28.
[Data] 부트스트랩과 순열검정 들어가기 : 재표본 추출(Resampling)이란? 우선, 재표본 추출이란 데이터에서의 랜덤한 변동성을 알아내기 위해, 관찰된 데이터의 값에서 표본을 반복적으로 추출하는 행위를 뜻한다. 머신러닝에서도, 재표본 추출 개념을 고려할 수 있는데 역시 표본을 반복해서 재추출하고 재추출된 표본에 모형을 적합하여, 분류 성능을 높이는 개념을 의미한다. 여기에서는 '통계학'에서 말하는 Resamling에 대해 고려하려고 한다. 크게 다음의 두 가지에 대해 생각해 볼 수 있다. 1. 부트스트랩 2. 순열검정 부트스트랩 모수의 표본 분포를 추정하는 쉽고 효과적인 방법으로, 부트스트랩을 활용할 수 있다. 이를 위해, 현재 있는 표본에서 표본을 "복원추출 하고", 각 표본에 대한 통계량 등을 다시 계산하게 된다. 데이터 수.. 2022. 2. 27.
[Data] Missing Value의 여러 대체 방법 들어가기 데이터에 결측치가 존재할 경우 이를 제외하거나, 혹은 다른 값으로 대체할 방법을 생각해야 한다. 여러 대체 방법들에 대해서 알아보고 정리하고자 한다. 대체하지 않고 삭제하는 경우도 존재. 물론 결측치를 대체하지 않고 삭제를 할 수도 있다. 결측치가 많지 않을 경우에는 생각해 볼 수 있는 방법이나, 몇 가지 문제가 존재한다. - Data Sample 축소 - 결측치 제거로 인한 편향 발생 가능성 증가 이 중 우선, 단일 대체법에 대해 알아보려고 한다. 단일 대체법 방법 1 ] 평균 대체법 어떤 변수의 결측값을, 관측된 값의 평균값으로 대체하는 방법이다. pandas에서는 쉽게 평균 대체를 진행할 수 있다. # 각 열을 평균값으로 채우기 df.fillna(df.mean()) Remark. 평균 값이.. 2022. 2. 23.