나이브 베이즈의 이해가 어려워 우선 간략하게 감을 좀 잡고, 좀 더 궁금한 내용을 찾아 한 번 제대로 정리해보려고 한다.
Naive bayes는 무엇을 하고 싶은 것인가?
나이브 베이즈는 이름에서 보듯, 베이즈 정리에 기반을 한다.
주어진 데이터가 class들 중 어떤 class에 속할 것인지를 찾는 것이 문제이다.
이 때, 주어지는 feature를 바탕으로 확률을 계산하여, 어떤 클래스에 속할 확률이 높은지를 계산하고자 한다.
즉 P(Ci|x)에 대해 예측을 진행한다. 여러 feature의 경우는 독립이라고 가정을 하고 분석을 진행한다.
Naive bayes를 다시 한마디로 정의하면, prior와 likelihood를 바탕으로 확률이 최대가 되는 class를 찾는 것이다.
Naive bayes의 장단점
- computational cost가 좋다.
- 큰 dataset에도 적용 가능하다.
- 연속형보다는 이산형 변수가 많은 데이터셋에 유리하다.
- multiple class에도 충분히 적용 가능하다.
- feature 간 독립은 무조건 필요하다. 상관관계에 대한 확인이 필요하다.
- 궁금한 사항
Naive bayes는 왜 imbalanced data에서 불리할까?
smoothing에 대해 이해하기
'TIL' 카테고리의 다른 글
[TIL] Python으로 시간 다루기 (0) | 2021.11.02 |
---|---|
[TIL] 회귀분석의 가정 (0) | 2021.10.27 |
[TIL] Gradient Vanishing 문제와 활성화 함수 (0) | 2021.09.20 |
[TIL] JSON 파일 읽기 (0) | 2021.09.06 |
[회고] 2021 카카오 인턴 간단 후기 (0) | 2021.08.31 |