본문 바로가기

Topics277

[TIL] Soft Voting, Hard Voting 캐글을 풀게 되다가 알게 된 내용. 기본적으로 Ensemble 은 보팅, 배깅과 부스팅으로 나뉘는데, 부스팅은 약화된 학습기를 가지고 중첩해서 학습을 하는거였다면, 배깅과 보팅은 기본적으로 투표를 활용한다. - 보팅 : 한 데이터 세트에 대해서 "서로 다른 알고리즘"을 가진 분류기들을 결합하는 방식 - 배깅 : 각 분류기는 모두 같은 유형의 알고리즘, 데이터 샘플링이 달라짐(부트스트래핑) 여기서, 보팅의 경우는 하드보팅과 소프트 보팅으로 나뉜다. - 하드 보팅 : 각 분류기의 최종 결과에 따른 다수결 - 소프트 보팅 : 각 분류기마다 Class의 확률을 정하고, 그 확률들의 평균값이 큰 값을 최종으로 결정. from sklearn.ensemble import VotingClassifier vo_clf =.. 2024. 1. 14.
[Data] CLV 정의 CLV(Customer Lifetime Value)란, 하나의 비즈니스가 특정 고객과의 장기적인 관계에서 기대되는 총 수익을 뜻한다. 즉, 유입된 유저가 얼마나 서비스에 잔존하여 앞으로 매출을 창출할 것인가에 대한 계산을 진행햐야 한다. 고객 유치 비용과 CLV를 비교하여 광고비의 집행이 적당했는가 등을 파악할 수 있을 것이다. 결국 최종 매출이 유치 비용보다 높으면 매출상 이득인 것은 자명하다. 기본적인 공식 : (평균 매출- 평균 비용) * 구매 빈도 * 평균 서비스 이용 기간 이렇게 간단하게는 계산이 가능하다. CLV를 예측할때 중요한 것은 고객마다의 "이탈"에 대한 고려이다. 즉 이것을 통해 예측을 진행하고, 기존의 CLV 공식을 활용할 경우, "미래에 가치가 높아질 것이나, 이탈 위험이 높.. 2024. 1. 13.
[프로그래머스] 상품을 구매한 회원 비율 구하기 (Lv 5) https://school.programmers.co.kr/learn/courses/30/lessons/131534 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 대망의 5단계 문제. 가장 핵심은 1월달 가입 유저 전체 수량을 어떻게 고정시키는 것인가이다. Select 문 자체에서 해당 값을 고정시켜버리면 된다. 뭐 from에서 가져오고 그러지 말고 그 값만 가져오면 되니까. Select문 자체에서 고정시키는 방식 잊지 말기. 나머지는 평이하다. 5단계 답게 배울게 있는 문제. SELECT YEAR(SALES_DATE) AS YEAR, MONTH(SALE.. 2024. 1. 12.
[프로그래머스] 저자별 카테고리별 매출액 집계하기 (Lv 3) https://school.programmers.co.kr/learn/courses/30/lessons/144856 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr JOIN 1번 더 하자. 어디에다가 합치는지만 집중하면 된다. 역시 3단계 치고도 좀 쉬운 문제 아닌가 싶다. 아까 올린 4단계보다는 조금 더 어렵긴 한듯. SELECT BOOK.AUTHOR_ID AS AUTHOR_ID, AUTHOR_NAME, CATEGORY, SUM(PRICE*SALES) AS TOTAL_SALES FROM BOOK LEFT JOIN AUTHOR ON BOOK.AUTHOR_I.. 2024. 1. 12.
[프로그래머스] 년,월,성별별 상품 구매 회원 수 구하기 (Lv 4) https://school.programmers.co.kr/learn/courses/30/lessons/131532 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr Level 4 치고는 말도 안되게 쉽다. 그냥 groupby를 3개 걸면 되고, 서브 쿼리도 안쓰는 쉬운 문제. 실제 체감은 Level 2 포인트는 어디에 그룹바이를 해서 셀지만 보면 된다. 그리고 여러번 구매 가능하니까 distinct 잊지 말고. -- 코드를 입력하세요 SELECT YEAR(SALES_DATE) AS YEAR, MONTH(SALES_DATE) AS MONTH, GENDER, .. 2024. 1. 12.
[Project] 원티드 채용 공고 분석 및 인사이트 도출 (3) 변경사항 이제 실제 분석에 들어가기 전, 몇 가지 변경 사항을 정리하려고 한다. - 수집 공고 수를 5000개로 늘렸다. 아무래도, 2500개는 적은 수량인 부분이 가장 크게 작용하였다. - stopwords는 wordcloud 작업을 하면서 지속적으로 추가하기로 결정 : 생각보다 stopword에 추가할 것이 지속적으로 발생 - 그 외, 데이터 분석 분야가 추가로 필요할 경우에는 링크를 별도로 모아서 수기로 직접 풀을 만들어 분석을 진행할려고 한다. wordcloud tf-idf를 만들었기에 단어별 중요도를 저장해 둘 수 있다. 이 dict를 사용하여 word cloud의 간단한 시각화가 가능하다. 보기 좋게 꾸미는 것은 다음 문제. 최종 분석 과제의 선정 (1) Wanted에는 어떤 분야의 공고가 많.. 2024. 1. 6.