본문 바로가기

Archive171

[Data] A/B test 간단 정리 A/B Test란? 처리군과 대조군의 비교 - 즉, 새로운 처리법이 더 나은가? 일반적으로 데이터 분석 현장에서는 얼마나 유의미하게 클릭율 / 전환율 등이 향상되었는가?를 확인. A/B 테스트의 여러 주의사항. - 한 번에 한 가지 요인에 대해서만 테스트 -> 외부 변수는 모두 같은 조건이 되게 통제 필요 - 분석대상 Page에 대해 방문자 충분히 유입되어야 한다. - 페이지의 개선사항에 체크를 해서 가설 설정 필요 - A, B 집단은 임의적으로 할당해야 한다. 또한 실험은 조기 중단X, 과거 결과는 맹신하지 말아야 한다. O A, B 집단의 할당은 계통추출법을 활용하여 mod2로 분배하거나, 아예 NRU만 실험 대상으로 써도 문제 없을 것. - 임의로 숫자를 보고 판단하는 것이 아니라, t-test를 .. 2023. 12. 31.
[TIL] 0808 아침스터디 - 다차원척도법 (MDS) 다차원 척도법 (Multidimensional Scaling, MDS) MDS란, 다변량 데이터의 특성 및 구조를 파악하여, 원래 차원보다 낮은 차원에 시각화를 시키는 방법이다. 이 때, 개체간의 유사성 / 비유사성이 드러나도록 진행한다. 즉, 개체간의 유사성 / 비유사성이 잘 표현되도록 "거리"를 시각화하는 작업을 하게 될 것이다. 중요한 점은, 거리 관계가 잘 유지되어야 한다는 점이다. 거리를 계산하기 위해, 일반적으로는 Eucliden-metric을 쓰긴 하나, Manhattan distance 등 필요에 따라 다른 distance를 이용할 수 있다. Python Example 코드를 통해서 어떻게 쓰는지 확인해보자. # 출처 : https://stackabuse.com/guide-to-multid.. 2022. 8. 8.
[TIL] 0805 아침스터디 - 나이브 베이즈 복습 Naive Bayes란? 원리 - 베이즈 정리 베이즈 정리란, 사전확률과 사후확률의 관계를 나타내는 정리이다. 사전확률은, 특정 사건이 일어나기 전에 우리가 구하고자 하는 사건의 확률을 의미한다. (예시 - 어떤 질병에 걸릴 확률) 여기에 증거, 즉 추가적인 조건을 붙힌다면, 이 때 확률은 어떻게 될지를 구하는 것이, 베이즈 정리이다. 다시 말해, A -> B라는 관계가 있을 때, B가 일어날 확률만 아는데, , B가 일어날 확률을 구하는 것이 베이즈 정리의 목표이다. 다음과 같이, 조건부 확률 형태로 얻을 수 있다. 작동 원리 기본적으로, 나이브 베이즈는 feature끼리는 서로 독립이어야 한다. 독립을 가정하게 되면 좋은 점은, 여러 특성들을 가졌을때, 그 확률의 .. 2022. 8. 5.
[TIL] 0729 아침스터디 - Kernel Trick 들어가기 분류 문제에서, 선형 분류로 풀 수 없는 상황이 여럿 존재할 것이다. 이를 해결 할 수 있는 방법 중 하나가 Kernel Trick이다. 다음과 같이, 일차원 상에, 데이터가 놓여있다고 하자, 초록색 데이터와 파란색 데이터는 선분 하나만으로는 구분할 수 없다. 하지만, 여기에 차원을 추가하면 어떻게 될까? 즉 x -> {x, x^2} 으로 보내는 mapping을 고려하자. 2차원으로 보낸 순간, 빨간 구분선을 기준으로, 초록색 데이터와 파란색 데이터의 구분이 가능해졌다. 이렇게 쉬운 상황만 고려하면, 좋을텐데, 문제는 일반적으로는 mapping 이 되는 함수를 찾기가 매우 어렵다는 것이다. Kernel이란? Kernel 이란, mapping 이후에도 "내적"의 값을 유지시켜주는 함수를 의미힌다... 2022. 7. 29.
[Data] Logistic Regression의 이탈도, 성능 측정 들어가기 Logistic Regression은 회귀의 방법론으로, 분류 문제를 푸는 방법이었다. logit값을 선형회귀로 예측하는 방법이고, 이를 다시 정리하면 sigmoid 함수의 형태의 식을 얻을 수 있다. 분류 문제의 풀이 방법이기에, 분류의 지표를 활용하는 방법도 있으나, Logistic Regression에서 자체로 생각할 수 있는 성능 측정 지표를 보려고 한다. 이탈도 이를 위해서는 먼저 이탈도(deviance)를 정의해야 한다. 여기서 yi의 경우는 x_i가 예측하는 0,1 의 값이고, y_hat은 y=1일 확률을 의미한다. 이 값의 경우, 모델이 정확하면 0 값을 가지게 되고, 나빠질수록 1에 가까워 진다. why?/ 정확하게는 log-loss로 받아들이는 쪽이 옳다. 실제 클래스 값과, .. 2022. 7. 27.
[TIL] 0725 아침스터디 - ROC curve, 비용민감 곡선 ROC Curve binary classification 모델의 평가 방법 중 하나. TPR/FPR TPR : 양성인 케이스에 대해 실제로 양성으로 잘 예측한 비율. FPR : 음성인 케이스에 대해 양성으로 잘못 예측한 비율. -> TPR이 높으면서, 1-FPR이 낮은 지점을 찾는 것이 중요할 것이고, 이를 위한 방법 중 하나가 ROC-Curve ROC Curve는 다음과 같이, 생겼고 curve-밑 부분의 넓이를 AUC라고 한다. curve가 이렇게 생긴 이유?, 어떻게 유도된 것일까? 양성인 분포와, 음성인 분포가 그림과 같다 가정하고 β값 이상을 가지면 무조건 양성이라고 판단하자. 그러면 그림과 같이 TP, TN, FP, FN이 나올 것이다. β값이 극단적으로 커지면, TPR, FPR이 모두 낮아지.. 2022. 7. 25.