본문 바로가기

Topics277

[Data] Outlier의 처리에 대하여 - 개요, 간단한 방법들 Outlier의 처리에 대하여 Outlier란? 이상치라고 불리는 Outlier를 간단하게 정의하면, 주어진 data에서 일반적인 pointer들이 가지고 있는 특성과 다르게 '튀는' 점들을 의미한다. 예를 들어, [-3, -2, 1, 2, 3, 999, 4, 7] 이런 관측값들이 모였다면 999가 Outlier라고 명백하게 생각할 수 있을 것이다. 왜 처리해야 하는가? 이러한 Outlier는 예측에 큰 영향을 주게 된다. 선형 회귀의 경우에 대해서만 고려해도, 직선의 fit 결과에 크게 영향을 주게 되며, 그보다 앞서서 단편적인 통계량에도 큰 변화를 주게된다. 따라서 Outlier에 대한 인지는 매우 중요하다는 것을 알 수 있다. 어떤 방법론들이 존재하는가? Outlier를 찾아내는 방법들은 다양하게 .. 2021. 10. 19.
[Data] 연관규칙분석이란? 연관규칙분석이란? [출처] 해당 링크를 통해 공부 및 실습해보았습니다. https://zephyrus1111.tistory.com/119 도입 어떤 가게 하나를 생각해보자. 이 가게에서 약 50 종류의 물건을 판매하고 있다고 가정하자. 가게의 매출을 효율적으로 올리기 위해, 마케팅 등을 실시하고 싶은데 어떤 물건들끼리 묶어서 판매하거나 홍보해야 가장 효율적인지에 대해 답해보고 싶다. 이를 위해서는 사람들이 어떤 물건들을 샀는지 조사해보려고 한다. A물건과 B물건을 유의미하게 같이 많이 살 수록, 두 물건을 묶어주는 것이 좋을 것이다. 이에 대한 통계적 분석을 내려주는 것이 바로 연관규칙분석(Association Rule Analysis.)이다. 다른 말로는 장바구니분석이라고도 한다. 위의 상황에 딱 맞는.. 2021. 10. 14.
[프로그래머스] Lv2 - 튜플 * 간만에 코딩테스트를 볼 일이 생겨서, 문제 풀이를 다시 연습해보았다. https://programmers.co.kr/learn/courses/30/lessons/64065 풀이법은 간단하다. 주어진 집합은 문자열로 한글자씩 들어오므로 숫자만 찾아준다. 수들이 몇개 있는지 세준다. 먼저 들어온 수부터 정렬을 해주면 깔끔하게 원하는 튜플을 얻게 된다. 다시 말해 맨 처음 들어 온 수가 가장 많은 개수만큼 들어올 것이니까. import string def solution(s): tuple = {} i = 0 while i < len(s): if s[i].isnumeric(): start = i end = start + 1 while s[end].isnumeric(): end += 1 cut = s[star.. 2021. 10. 8.
[TIL] 나이브 베이즈 다시 이해하기 나이브 베이즈의 이해가 어려워 우선 간략하게 감을 좀 잡고, 좀 더 궁금한 내용을 찾아 한 번 제대로 정리해보려고 한다. Naive bayes는 무엇을 하고 싶은 것인가? 나이브 베이즈는 이름에서 보듯, 베이즈 정리에 기반을 한다. 주어진 데이터가 class들 중 어떤 class에 속할 것인지를 찾는 것이 문제이다. 이 때, 주어지는 feature를 바탕으로 확률을 계산하여, 어떤 클래스에 속할 확률이 높은지를 계산하고자 한다. 즉 P(Ci|x)에 대해 예측을 진행한다. 여러 feature의 경우는 독립이라고 가정을 하고 분석을 진행한다. Naive bayes를 다시 한마디로 정의하면, prior와 likelihood를 바탕으로 확률이 최대가 되는 class를 찾는 것이다. Naive bayes의 장단점.. 2021. 10. 5.
[Data] Feature Importance 정리하기 Feature Importance가 정말 답인가? 참고자료 [1] https://hwi-doc.tistory.com/entry/Feature-selection-feature-importance-vs-permutation-importance [2] https://velog.io/@vvakki_/%EB%9E%9C%EB%8D%A4-%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8%EC%97%90%EC%84%9C%EC%9D%98-%EB%B3%80%EC%88%98-%EC%A4%91%EC%9A%94%EB%8F%84Variable-Importance-3%EA%B0%80%EC%A7%80 [3] https://soohee410.github.io/iml_tree_importance Random Forest.. 2021. 9. 30.
[Data] Data Clustering 정리 데이터 클러스티링이란? 비지도학습의 일종으로, 학습 데이터가 주어지지 않은 상태에서 유의미한 결과를 찾아내야 한다. 여기서 Clustering에서 하고 싶은 것은 주어진 데이터를 적당한 군집으로 나눠주고자 하는 것이다. 여러가지 방법이 있지만 크게 다음 두가지에 대해 정리하고자 한다. (1) K-means (K-means ++) (2) DBSCAN K-means K-means는 kNN과 유사한 방법을 사용한다. 구체적으로는 평균을 계속 적용하여 중심점을 지속적으로 조절하는 방법을 사용한다. 이를 통해 각 클러스터 내에서 분산을 최소화 해서 군집화 하는 방식이다. K-means의 작동 원리 (1) K값을 정해 몇 개의 클러스터로 나눌지 결정한다. (K값은 중심점의 개수가 된다) (2) 최초의 중심점은 랜덤.. 2021. 9. 30.