[밑딥2] CBOW 모델과 skip-gram 모델의 수식 이해
밑바닥부터 시작하는 딥러닝 ch3.5 정리 CBOW 모델과 확률 - 기호 정리 P(A) : 사건 A가 일어날 확률 P(A, B) : 동시 확률로, 사건 A와 B가 동시에 일어날 확률 P(A|B) : 사후확률. B가 주어질 때, A가 일어날 확률 - 확률적 해석 w1, w2, .... , w t-1, wt 라는 말 뭉치가 주어질 때, 윈도우 크기에 따른 맥락을 고려하자. 윈도우 = 1 일때, 맥락 wr-1, wr+1에서 target이 wr이 될 확률은 P(w_r | w_r-1, w_r+1)으로 주어지게 된다. 여기서 w_t는 one-hot encoding 된 상태이므로, 교차 엔트로피를 구하면 다음과 같다. L = -log P(w_r | w_r-1, w_r+1) 이를 말뭉치 전체로 확장할 수도 있다. sk..
2021. 8. 2.
[밑딥2] 중요도, 유사도가 높은 단어 추출하기
상호 정보량을 고려하는 이유 corpus에서 단어들간의 동시 발생 횟수를 고려해보자. the 같은 단어는 빈도가 매우 많아서 다양한 단어와 강한 관련성이있다고 판단될 것이나, 의미까지 파악한다면 더 유사도가 높은 단어가 선택되어야 할 것이다. 이를 위해서 확률적 관점에서 바라보는 지표를 선택한다. PMI PMI(x, y) = log2 P(x,y)/(P(x) * P(y)) 로 정의된다. 여기서 P(x)는 x가 말뭉치에 등장할 확률을 의미한다. 예를들어 10,000개의 단어가 있는 말뭉치에서 the가 100번 등장한다면 P(the) = 0.01이 될 것이다. 동시발생 행렬과 PMI 앞에서 본 동시발생 행렬을 위의 식에 적용하면, P(x, y) = C(x, y)/N, P(x) = C(x) / N, P(y) =..
2021. 7. 21.