본문 바로가기

Archive171

[TIL] Python으로 시간 다루기 WAVVE Coding Test 참패당했다... 물론 평소 한거랑 조금 다른 계열의 분석 문제라는 핑계는 있지만.. 핑계는 핑계고 아무튼 시간을 다룬다던가, pivot 기능이 덜 숙지 되었다는 것이 부끄럽다. 그런 의미로 시간을 다루는 법을 한번 정리하였다. https://github.com/SeongwonTak/TIL_swtak/blob/master/Python_handling_time_series.ipynb GitHub - SeongwonTak/TIL_swtak: Today, I learned. Today, I learned. Contribute to SeongwonTak/TIL_swtak development by creating an account on GitHub. github.com 2021. 11. 2.
[Data] 범주형 변수의 Clustering 범주형 변수를 Clustering 할 수 있을것인가? 참고자료 [1] Zhexue Huang, A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining [2] Zhexue Huang, Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values [3] https://medium.com/geekculture/the-k-modes-as-clustering-algorithm-for-categorical-data-type-bcde8f95efd7 [4] https://www.analyticsvidhya.com/blo.. 2021. 10. 28.
[TIL] 회귀분석의 가정 개요 회귀모델이 정말 적절했는지를 따져보기 위한 검토 방법중의 하나로 회귀 모델의 기본 가설이 잘 성립했는지를 확인해 보는것이 그 방법이 될 수 있을 것이다 회귀 분석의 기본 가정 4가지에 대해 알아보고 이에 대한 여러 검증 방법 및 시각화 방법에 대해 정리해본다. 선형회귀분석의 가정 선형회귀분석의 기본 4가지 가정은 다음과 같다. (1) 정규성 : 잔차가 평균이 0인 정규분포를 띈다. (2) 독립성 : 잔차 사이에는 상관관계가 없이 독립이어야 한다. (3) 등분산성 : 잔차의 분산은 입력변수와 무관하게 일정해야 한다. (4) 선형성 : 입력변수와 출력변수 사이에는 선형적인 관계를 띄어야 한다. 주의사항! 여기서 독립변수의 정규성이나 독립성 등을 따지는 것이 아니라 잔차의 정규성, 독립성을 따져야 한다... 2021. 10. 27.
[Data] Outlier의 처리에 대하여 - 개요, 간단한 방법들 Outlier의 처리에 대하여 Outlier란? 이상치라고 불리는 Outlier를 간단하게 정의하면, 주어진 data에서 일반적인 pointer들이 가지고 있는 특성과 다르게 '튀는' 점들을 의미한다. 예를 들어, [-3, -2, 1, 2, 3, 999, 4, 7] 이런 관측값들이 모였다면 999가 Outlier라고 명백하게 생각할 수 있을 것이다. 왜 처리해야 하는가? 이러한 Outlier는 예측에 큰 영향을 주게 된다. 선형 회귀의 경우에 대해서만 고려해도, 직선의 fit 결과에 크게 영향을 주게 되며, 그보다 앞서서 단편적인 통계량에도 큰 변화를 주게된다. 따라서 Outlier에 대한 인지는 매우 중요하다는 것을 알 수 있다. 어떤 방법론들이 존재하는가? Outlier를 찾아내는 방법들은 다양하게 .. 2021. 10. 19.
[Data] 연관규칙분석이란? 연관규칙분석이란? [출처] 해당 링크를 통해 공부 및 실습해보았습니다. https://zephyrus1111.tistory.com/119 도입 어떤 가게 하나를 생각해보자. 이 가게에서 약 50 종류의 물건을 판매하고 있다고 가정하자. 가게의 매출을 효율적으로 올리기 위해, 마케팅 등을 실시하고 싶은데 어떤 물건들끼리 묶어서 판매하거나 홍보해야 가장 효율적인지에 대해 답해보고 싶다. 이를 위해서는 사람들이 어떤 물건들을 샀는지 조사해보려고 한다. A물건과 B물건을 유의미하게 같이 많이 살 수록, 두 물건을 묶어주는 것이 좋을 것이다. 이에 대한 통계적 분석을 내려주는 것이 바로 연관규칙분석(Association Rule Analysis.)이다. 다른 말로는 장바구니분석이라고도 한다. 위의 상황에 딱 맞는.. 2021. 10. 14.
[TIL] 나이브 베이즈 다시 이해하기 나이브 베이즈의 이해가 어려워 우선 간략하게 감을 좀 잡고, 좀 더 궁금한 내용을 찾아 한 번 제대로 정리해보려고 한다. Naive bayes는 무엇을 하고 싶은 것인가? 나이브 베이즈는 이름에서 보듯, 베이즈 정리에 기반을 한다. 주어진 데이터가 class들 중 어떤 class에 속할 것인지를 찾는 것이 문제이다. 이 때, 주어지는 feature를 바탕으로 확률을 계산하여, 어떤 클래스에 속할 확률이 높은지를 계산하고자 한다. 즉 P(Ci|x)에 대해 예측을 진행한다. 여러 feature의 경우는 독립이라고 가정을 하고 분석을 진행한다. Naive bayes를 다시 한마디로 정의하면, prior와 likelihood를 바탕으로 확률이 최대가 되는 class를 찾는 것이다. Naive bayes의 장단점.. 2021. 10. 5.