본문 바로가기

데이터 분석 관련49

[Data] Multi-Armed Bandit - 개념편 다음 글을 기반으로 정리하였습니다. - https://playinpap.github.io/mab/#mab%EA%B0%80-%EC%99%9C-%EB%98%91%EB%98%91%ED%95%9C%EA%B0%80 - https://hardenkim.tistory.com/181 - https://yjjo.tistory.com/38 - https://soobarkbar.tistory.com/135 들어가기 현업에서 데이터 분석을 하다보면, A/B 테스트는 피할 수 없습니다. 하지만 테스트는 공짜가 아니죠. 그리고 여러 딜레마적인 상황도 발생합니다. 이를 정리하면 다음과 같습니다. - A/B 테스트를 진행할수록, 기회 비용이 발생한다. - 하지만 그렇다고 A/B 테스트를 짧게 하면 신뢰성에 문제가 생긴다. - 결정적.. 2024. 4. 11.
[Data] 결측치 처리 관련 (1) 6장 관련 내용입니다. 들어가기 데이터 분석을 하다보면, 결측치는 피할 수 없습니다. 결측치를 처리할 때 무지성으로 평균값을 넣던가, 최빈값을 넣던가 혹은 결측치의 양이 매우 적다면 무시하고 지우는 것도 방법일 것입니다. 그러나 결측치를 생각 없이 처리하면 문제가 발생할 수 있습니다. 생각없이 결측치를 처리한다면? 금융 결제와 관련된 데이터를 처리한다고 하겠습니다. 어플 사용과 관련된 데이터가 있다고 가정합시다. 어플 사용 내역이 없을 경우, 당연히 해당 데이터는 결측치로 들어갈 것입니다. 이 데이터가 없는 행을 모두 삭제하면 어떻게 될까요? 그렇게 될 경우 해당 데이터는 젊은 고객을 중심으로 편향될 것이기에 전체 고객을 대표한다고 함부로 말하기 어려울 것입니다. 즉, 편향된 데.. 2024. 4. 10.
[Data] A/B 테스트 개념 다지기 https://taksw222.tistory.com/229 이 글을 통해 A/B 테스트의 실제 예시를 다룬 적이 있습니다. 이 글에서는 조금 더 이론적인 부분이나 생각할 부분에 집중하여 A/B 테스트를 한번 더 알아보겠습니다. 들어가기 우리가 A/B 테스트를 진행할 때 단순히 A안과 B안을 비교해서 어디가 더 낫네, 그래서 뭘 하네 이렇게 단순히 끝내고 싶지는 않을 것입니다. 자, 데이터 분석가가 아닌 그냥 결과를 보는 사람 입장에서 생길 수 있는 다양한 의문점들을 봅시다. - 겨우 1% 차이인데, 이거 의미 있는거 맞아? - 이거 정말 A를 B로 바꾸면 개선되는거 맞지? 우연은 아니지? - 다른 고객들에게 적용해도 되는 이야기지? 등등, 다양한 합리적인 의심(?!)을 할 수 있습니다. 우리는 이것에 대.. 2024. 1. 31.
[Data] 업리프트 모델링이란? - 예제편 아직, 개념편을 보지 않으셨다면 https://taksw222.tistory.com/237 데이터 출처는 https://www.kaggle.com/code/kriyeneekutbay/marketing-uplift 간단한 예제를 통해, 업리프트 모델링을 실제로 하는 법을 알아봅시다. 변수 설명입니다. recency : 가장 마지막 구매일로부터 지난 달 수 history : 현재까지 총 구매액 user_discount : 할인을 받은 적이 있는가? 있으면 1, 없으면 0 user_bogo : 1+1을 받은 적이 있는가? (one get one 이 1+1) zip_code : 우편 번호 구분(지역 구분) is_referral : 추천 채널로부터 고객을 유입받은 것인지 channel : 고객이 사용하는 채널 o.. 2024. 1. 29.
[Data] 업리프트 모델링이란? - 개념편 https://www.intelligencelabs.tech/5e047ef8-f811-47a8-9058-e6dfb2d5f8aa 글을 메인으로, 다양한 다른 글들을 참고하여 직접 정리하였습니다. 들어가기 잠깐, 회사의 입장에서 생각해보자. 서비스를 운영하고 있는 회사에서는 다음을 생각해 볼 수 있다. - 유저의 유치를 어떻게 이끌어낼 것인가? - 유치한 유저의 구매 전환을 어떻게 이끌어낼 것인가? 유저의 구매 전환을 위해 "광고"라는 수단을 도입할 수 있다. 자본이 무한정하다면, 사실상 아무에게나 광고를 때려도 무방할 것이나, 우리는 금전이라는 자원을 고려할 수 밖에 없다. 광고비를 절감할 수 있는 하나의 방법은 "타겟"의 적절한 선택일 것이다. 업리프트 모델링은 이를 위한 방법론에 해당된다. 어떻게 고객.. 2024. 1. 29.
[Data] 이탈분석 - 생존분석 개괄편 들어가기 서비스 분석에서 유저의 이탈을 예측하는 것은 중요합니다. - 특정 이벤트에 의해 유저의 이탈/비이탈이 나눌 경우, 해당 이벤트의 경험 여부를 결정할 수 있다. - LTV의 예측에서는 유저의 수명과 가치의 곱으로 계산되기에 유저의 수명 또한 고려해야 한다. 즉 이탈을 탐지하고 고려하는 것은 중요한데, 여기서 이탈에 대해 고려할 것은 두 가지입니다. - 이탈을 할 유저인가? - 이탈을 한다면 언제 할 것인가? 물론, 장기적 관점에서는 결국 이탈을 할 수 밖에 없겠습니다.(일단 사람의 수명이 무한대가 아닌 이상 이탈은 수학적, 생물학적으로 확정이다.) 이탈의 탐지도 중요하나, 언제 이탈을 할 것인지에 대해 예측하는 것에 한번 초점을 두겠습니다. 여기서 이제 생존분석 이라는 것을 도입해볼 수 있습니다... 2024. 1. 24.