[밑딥2] CBOW 모델과 skip-gram 모델의 수식 이해
밑바닥부터 시작하는 딥러닝 ch3.5 정리 CBOW 모델과 확률 - 기호 정리 P(A) : 사건 A가 일어날 확률 P(A, B) : 동시 확률로, 사건 A와 B가 동시에 일어날 확률 P(A|B) : 사후확률. B가 주어질 때, A가 일어날 확률 - 확률적 해석 w1, w2, .... , w t-1, wt 라는 말 뭉치가 주어질 때, 윈도우 크기에 따른 맥락을 고려하자. 윈도우 = 1 일때, 맥락 wr-1, wr+1에서 target이 wr이 될 확률은 P(w_r | w_r-1, w_r+1)으로 주어지게 된다. 여기서 w_t는 one-hot encoding 된 상태이므로, 교차 엔트로피를 구하면 다음과 같다. L = -log P(w_r | w_r-1, w_r+1) 이를 말뭉치 전체로 확장할 수도 있다. sk..
2021. 8. 2.