본문 바로가기
TIL

[TIL] 나이브 베이즈 다시 이해하기

by 다람이도토리 2021. 10. 5.

나이브 베이즈의 이해가 어려워 우선 간략하게 감을 좀 잡고, 좀 더 궁금한 내용을 찾아 한 번 제대로 정리해보려고 한다.

Naive bayes는 무엇을 하고 싶은 것인가?

나이브 베이즈는 이름에서 보듯, 베이즈 정리에 기반을 한다.
주어진 데이터가 class들 중 어떤 class에 속할 것인지를 찾는 것이 문제이다. 

이 때, 주어지는 feature를 바탕으로 확률을 계산하여, 어떤 클래스에 속할 확률이 높은지를 계산하고자 한다.

즉 P(Ci|x)에 대해 예측을 진행한다.   여러 feature의 경우는 독립이라고 가정을 하고 분석을 진행한다.

Naive bayes를 다시 한마디로 정의하면, prior와 likelihood를 바탕으로 확률이 최대가 되는 class를 찾는 것이다.

 Naive bayes의 장단점

- computational cost가 좋다.
- 큰 dataset에도 적용 가능하다.
- 연속형보다는 이산형 변수가 많은 데이터셋에 유리하다.
- multiple class에도 충분히 적용 가능하다.
- feature 간 독립은 무조건 필요하다. 상관관계에 대한 확인이 필요하다.

- 궁금한 사항

Naive bayes는 왜 imbalanced data에서 불리할까?

smoothing에 대해 이해하기

'TIL' 카테고리의 다른 글

[TIL] Python으로 시간 다루기  (0) 2021.11.02
[TIL] 회귀분석의 가정  (0) 2021.10.27
[TIL] Gradient Vanishing 문제와 활성화 함수  (0) 2021.09.20
[TIL] JSON 파일 읽기  (0) 2021.09.06
[회고] 2021 카카오 인턴 간단 후기  (0) 2021.08.31