Archive171 [Data] RFM 분석이란? (실전편) 이론편 : https://taksw222.tistory.com/231 Code : https://github.com/swtaktak/TIL_new/blob/main/data_analyst_practice/240119%20RFM.ipynb Data출처 : https://www.kaggle.com/datasets/thedevastator/online-retail-transaction-data 지난번 이론편에 이어 이번엔은 RFM 분석을 한번 진행해보겠습니다. 제가 직접 한번 해보겠습니다. Data 살펴보기 이번 분석 연습도 Kaggle의 데이터로 진행됩니다. 데이터의 첫 10줄을 살펴보면 다음과 같습니다. 몇몇 변수들에 대해 살펴보겠습니다. InvoiceNo : 송장 번호입니다. 즉 한 번의 구매 단위입니다.. 2024. 1. 19. [Data] RFM 분석이란? (이론편) RFM 분석이란? 기본적인 RFM의 정의는 다음과 같다. Recency : 얼마나 최근에 구매했는가? Frequency : 얼마나 자주 구매했는가? Monetary : 얼마나 많은 금액을 지출했는가? 이 3가지 지표로 사용자들의 분포를 확인하거나 사용자들에게 등급을 부여하여 clustering을 시키고, 이를 바탕으로 Insight를 획득하는 것이 RFM 분석이다. 이 지표를 사용할 경우 생각할 수 있는 다양한 장점들은 다음과 같다. - 최근 구매가 많다 -> 고객의 반응이 좋다. - 구매 빈도가 높다 -> 해당 고객들은 상품에 대한 참여율도 높고, 만족도도 높아 자주 action이 발생한다. - 구매 금액을 바탕으로 유저의 등급을 나눠서 접근할 수 있다. - RFM을 바탕으로 고객을 여러 세그먼트로 나.. 2024. 1. 17. [Data] A/B Test 사용해보기 : Cookie-Cats 내 블로그에서 직접 이를 실험하면 좋겠지만 유의미하게 로그 획득을 정확하게 하기 어려울 것이기에 캐글에 존재하는 다른 데이터로 A/B Test 연습을 대체하였다. 아래 깃헙 링크를 통해 조금 더 구체적인 세부 코드들을 확인할 수 있다. https://github.com/swtaktak/TIL_new/blob/main/data_analyst_practice/240116_AB_Test_Practice.ipynb Data Link : https://www.kaggle.com/datasets/zahrazolghadr/ab-test-cookie-cats 위의 데이터는 "Cookie-Cats"라는 게임의 데이터이다. 문제 상황 게임 초반의 허들을 변화했을 때, 리텐션에 어떤 변화가 있을지를 살펴보는 A/B 테스트를.. 2024. 1. 16. [Data] Retention 왜 Retention을 보려고 하는가? Retention은 사용자가 서비스에 최초 가입한 이후 해당 서비스를 지속적으로 사용하는가를 측정하기 위한 지표이다. 사용자들이 충분히 서비스를 사용하지 않고 "이탈"한다면 의미가 없을 것이다. 기본적으로 AARRR에서 가장 먼저 개선을 고려해야 하는 사항이기도 하다. Remark. AARRR이란? 유저의 이용 사이클을 체계화한 프레임워크 A : Acquisition (사용자 획득) A : Activation (사용자 활성화) R : Retention (사용자의 유지) R : Revenue (매출) R : Referral (타 사용자에게 추천, 전파) Retention의 종류 이러한 Retention도 어떻게 보냐에 따라서 다양한 기준들이 존재한다. (1) Clas.. 2024. 1. 15. [TIL] Soft Voting, Hard Voting 캐글을 풀게 되다가 알게 된 내용. 기본적으로 Ensemble 은 보팅, 배깅과 부스팅으로 나뉘는데, 부스팅은 약화된 학습기를 가지고 중첩해서 학습을 하는거였다면, 배깅과 보팅은 기본적으로 투표를 활용한다. - 보팅 : 한 데이터 세트에 대해서 "서로 다른 알고리즘"을 가진 분류기들을 결합하는 방식 - 배깅 : 각 분류기는 모두 같은 유형의 알고리즘, 데이터 샘플링이 달라짐(부트스트래핑) 여기서, 보팅의 경우는 하드보팅과 소프트 보팅으로 나뉜다. - 하드 보팅 : 각 분류기의 최종 결과에 따른 다수결 - 소프트 보팅 : 각 분류기마다 Class의 확률을 정하고, 그 확률들의 평균값이 큰 값을 최종으로 결정. from sklearn.ensemble import VotingClassifier vo_clf =.. 2024. 1. 14. [Data] CLV 정의 CLV(Customer Lifetime Value)란, 하나의 비즈니스가 특정 고객과의 장기적인 관계에서 기대되는 총 수익을 뜻한다. 즉, 유입된 유저가 얼마나 서비스에 잔존하여 앞으로 매출을 창출할 것인가에 대한 계산을 진행햐야 한다. 고객 유치 비용과 CLV를 비교하여 광고비의 집행이 적당했는가 등을 파악할 수 있을 것이다. 결국 최종 매출이 유치 비용보다 높으면 매출상 이득인 것은 자명하다. 기본적인 공식 : (평균 매출- 평균 비용) * 구매 빈도 * 평균 서비스 이용 기간 이렇게 간단하게는 계산이 가능하다. CLV를 예측할때 중요한 것은 고객마다의 "이탈"에 대한 고려이다. 즉 이것을 통해 예측을 진행하고, 기존의 CLV 공식을 활용할 경우, "미래에 가치가 높아질 것이나, 이탈 위험이 높.. 2024. 1. 13. 이전 1 2 3 4 5 6 ··· 29 다음