본문 바로가기

데이터분석 공부하기242

[Data] Multi-Armed Bandit - 개념편 다음 글을 기반으로 정리하였습니다. - https://playinpap.github.io/mab/#mab%EA%B0%80-%EC%99%9C-%EB%98%91%EB%98%91%ED%95%9C%EA%B0%80 - https://hardenkim.tistory.com/181 - https://yjjo.tistory.com/38 - https://soobarkbar.tistory.com/135 들어가기 현업에서 데이터 분석을 하다보면, A/B 테스트는 피할 수 없습니다. 하지만 테스트는 공짜가 아니죠. 그리고 여러 딜레마적인 상황도 발생합니다. 이를 정리하면 다음과 같습니다. - A/B 테스트를 진행할수록, 기회 비용이 발생한다. - 하지만 그렇다고 A/B 테스트를 짧게 하면 신뢰성에 문제가 생긴다. - 결정적.. 2024. 4. 11.
[Data] 결측치 처리 관련 (1) 6장 관련 내용입니다. 들어가기 데이터 분석을 하다보면, 결측치는 피할 수 없습니다. 결측치를 처리할 때 무지성으로 평균값을 넣던가, 최빈값을 넣던가 혹은 결측치의 양이 매우 적다면 무시하고 지우는 것도 방법일 것입니다. 그러나 결측치를 생각 없이 처리하면 문제가 발생할 수 있습니다. 생각없이 결측치를 처리한다면? 금융 결제와 관련된 데이터를 처리한다고 하겠습니다. 어플 사용과 관련된 데이터가 있다고 가정합시다. 어플 사용 내역이 없을 경우, 당연히 해당 데이터는 결측치로 들어갈 것입니다. 이 데이터가 없는 행을 모두 삭제하면 어떻게 될까요? 그렇게 될 경우 해당 데이터는 젊은 고객을 중심으로 편향될 것이기에 전체 고객을 대표한다고 함부로 말하기 어려울 것입니다. 즉, 편향된 데.. 2024. 4. 10.
출근 2주간의 회고 요즘 출근하고, 정신없이 새로 배우고 적응하느라 정신이 없습니다. 블로그 글이나 공부도 거의 못했네요. 아니, 공부를 안 한 것은 아니고 회사 적응에 집중하였습니다. 하지만 이젠 개인 공부도 계속 해 나갈 때가 왔습니다. 이젠 충분히 몸은 적응했으니, 슬슬 다시 가동해볼 겸, 짧은 회고를 남겨봅니다. 1. 처음 겪는 것이 매우 많았습니다. 이렇게 규모가 큰 팀도 처음, 분석가가 많은 것도 처음, 같이 정말 "협업"이 원활하게 이루어 지고 있다는 것도 신기했습니다. 그동안 있던 곳이 이렇지 않다는 것의 의미는 아닙니다. 하지만 정말 하나의 문제를 함께 같이 고민하고, 협업해서 해결하고, 때로는 다른 팀들의 요청사항을 적극적으로 돕고 해결하는 그런 모습을 보면서 큰 자극을 받았습니다. 분석 환경 면에서도 많.. 2024. 3. 9.
[Playground] 이직 예측 모델 만들기 (2) 1편 : https://taksw222.tistory.com/248 도입 2편의 목적은, 앞에서 만든 모델을 해석해 보는 것입니다. 물론 LightGBM을 Tree로 그릴 수 있겠지만, 조금 더 좋은 설명 명법은 없을까요? 우리는 인공지능에게 설명을 요구해보겠습니다. * 수정사항 : 1편과 다르게 2편에서는 경력 년수를 연수 자체로 변형하여 넣었습니다. XAI를 도입하자. 인공지능에게 설명을 요구하겠습니다. XAI는 간단하게, 모델이 왜 그런 결과를 내었는지 그 근거를 답해주는 역할을 말합니다. 간단하게 Ensemble Tree들의 Feature Importance도 하나의 예시가 될 수 있습니다. 하지만 더 중요한 질문을 하나 해보죠 그 변수가 중요한 판단의 기준인 건 알겠어요. 근데 그 값이 커지면 .. 2024. 2. 16.
[Playground] 이직 예측 모델 만들기 (1) https://github.com/swtaktak/playground/blob/main/data_scientist_drop_predict/ds_move_predict.ipynb 도입 이 문제를 생각하게 된 계기는 이전에 원티드 채용공고 크롤링을 통해 직접 키워드를 분석해 본 적이 있었던 경험에서 기반하였다. 회사가 어떤 사람을 뽑고 싶어할지 공고의 주요 키워드를 보는 일이었다. 그러면, 이제 enter는 봤으니, "exit"를 보면 어떨지 고려해봅시다. 문제 목표 , 데이터 확인 https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists (1) 이직에 대해 고려하고 있는 사람을 예측하기 (2) 클러스터링을 통한 인.. 2024. 2. 14.
[Etc] 2월 말부터 다시 데이터 분석가로 근무하게 되었습니다. 오랜 방황(?) 끝에, 다시 2월 말부터 데이터 분석가로 돌아오게 되었습니다. 한동안 입사 준비 하고, 집도 구하고 설 때 좀 쉬고 하느라, 이런저런 일로 블로깅이 좀 많이 밀렸네요. 공부도 한동안 좀 쉬면서 휴식을 좀 취했습니다. 이제 입사 전에 공부할 책도 받을 예정이고, 한 주 정도는 다른 입사 준비를 하면서 정신없이 보낼 것 같습니다.! 2024. 2. 14.