본문 바로가기

Archive/데이터 분석 관련49

[Networkx] 다음 검색어 네트워크 분석 Network 사용법도 익힐겸, 크롤링도 다시 복습해 볼 겸 다음의 문제를 해결해 보려고 했다. [ 해결 문제 ] 다음 검색에서 '코로나'를 검색하면 연관 검색어가 나온다. 그 연관검색어를 다시 검색창에 입력하면 또 연관 검색어가 나올 것이다. 이렇게 3단으로 만들어진 검색어 라인을 한 줄로 만들어 데이터를 수집하고, 이들에 대한 관계를 시각화로 표현하자. Step 1. Daum 검색어 크롤링 # 연관어 분석을 위한 크롤링을 실시한다. import bs4 import pandas as pd import numpy as np import re import requests from bs4 import BeautifulSoup word = '코로나' url_based = 'https://search.daum... 2022. 1. 6.
[Data] 데이터 분석 용어 - 이용자 및 매출에 대한 지표 요약 출처 [1] https://you-yeon.tistory.com/29 [2] https://team.postype.com/post/9405656 [3] https://mixpanel.com/ko/resources/how-to-calculate-lifetime-value/ * 이용자 및 매출에 대한 지표를 간단하게 요약하였습니다. 각각에 대한 세부적 이해에 앞서 먼저 큰 그림을 잡고 넘어가고자 합니다. Q. 특정 서비스를 사용하는 유저의 수를 어떻게 셀 것인가? 단순히 접속 카운트로만 센다? 그러나 여기에는, 한 가지 문제가 존재한다. 하나의 유저가 핸드폰으로도, 컴퓨터로도 다양한 방식으로 여러 번 접속할 수 있을 것이다. 이러한 케이스를 어떻게 가중치를 두고, 어떻게 다룰 것인가에 대해 정리해볼 필요가 .. 2021. 12. 10.
[Data] 범주형 변수의 Clustering 범주형 변수를 Clustering 할 수 있을것인가? 참고자료 [1] Zhexue Huang, A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining [2] Zhexue Huang, Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values [3] https://medium.com/geekculture/the-k-modes-as-clustering-algorithm-for-categorical-data-type-bcde8f95efd7 [4] https://www.analyticsvidhya.com/blo.. 2021. 10. 28.
[Data] Outlier의 처리에 대하여 - 개요, 간단한 방법들 Outlier의 처리에 대하여 Outlier란? 이상치라고 불리는 Outlier를 간단하게 정의하면, 주어진 data에서 일반적인 pointer들이 가지고 있는 특성과 다르게 '튀는' 점들을 의미한다. 예를 들어, [-3, -2, 1, 2, 3, 999, 4, 7] 이런 관측값들이 모였다면 999가 Outlier라고 명백하게 생각할 수 있을 것이다. 왜 처리해야 하는가? 이러한 Outlier는 예측에 큰 영향을 주게 된다. 선형 회귀의 경우에 대해서만 고려해도, 직선의 fit 결과에 크게 영향을 주게 되며, 그보다 앞서서 단편적인 통계량에도 큰 변화를 주게된다. 따라서 Outlier에 대한 인지는 매우 중요하다는 것을 알 수 있다. 어떤 방법론들이 존재하는가? Outlier를 찾아내는 방법들은 다양하게 .. 2021. 10. 19.
[Data] 연관규칙분석이란? 연관규칙분석이란? [출처] 해당 링크를 통해 공부 및 실습해보았습니다. https://zephyrus1111.tistory.com/119 도입 어떤 가게 하나를 생각해보자. 이 가게에서 약 50 종류의 물건을 판매하고 있다고 가정하자. 가게의 매출을 효율적으로 올리기 위해, 마케팅 등을 실시하고 싶은데 어떤 물건들끼리 묶어서 판매하거나 홍보해야 가장 효율적인지에 대해 답해보고 싶다. 이를 위해서는 사람들이 어떤 물건들을 샀는지 조사해보려고 한다. A물건과 B물건을 유의미하게 같이 많이 살 수록, 두 물건을 묶어주는 것이 좋을 것이다. 이에 대한 통계적 분석을 내려주는 것이 바로 연관규칙분석(Association Rule Analysis.)이다. 다른 말로는 장바구니분석이라고도 한다. 위의 상황에 딱 맞는.. 2021. 10. 14.
[Data] Feature Importance 정리하기 Feature Importance가 정말 답인가? 참고자료 [1] https://hwi-doc.tistory.com/entry/Feature-selection-feature-importance-vs-permutation-importance [2] https://velog.io/@vvakki_/%EB%9E%9C%EB%8D%A4-%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8%EC%97%90%EC%84%9C%EC%9D%98-%EB%B3%80%EC%88%98-%EC%A4%91%EC%9A%94%EB%8F%84Variable-Importance-3%EA%B0%80%EC%A7%80 [3] https://soohee410.github.io/iml_tree_importance Random Forest.. 2021. 9. 30.