본문 바로가기
Archive/TIL

[TIL] 품사 태깅 알고리즘들.

by 다람이도토리 2022. 4. 23.
https://yngie-c.github.io/nlp/2020/05/10/nlp_pos_tagging/

Pos tagging

기본적으로 크게, 다음 3가지로 나뉜다.

(1) Pointwise prediction
(2) Probabilistic prediction
(3) Neural Network based Models

(1) Pointwise prediction

Maximum Entrophy Model / Support Vector Machine 활용.
단어의 품사를 매길 때, 더 중요한 정보에 대해 가중치를 주는 방식으로 계산.
각 품사가 태깅될 확률을 계산한다.

(2) Probabilistic prediction

입력 문장을 X, 할당되는 품사를 Y라고 하자. argmax(Y|X)를 찾는 목표로 표현된다.

* Generative sequence models : 베이즈 확률을 이용한다.
이 때, 모든 토큰이 독립이라는 가정을 추가한다.

수식 출처 : https://yngie-c.github.io/nlp/2020/05/10/nlp_pos_tagging/


* Hidden Markov Models

(3) Neural Network based Models

신경망을 활용할때는,
- Window : 타겟 주위의 단어로부터 품사를 예측한다.
- Sentence : 문장 내 단어 특성화 -> 품사 태깅.

추가로, 모든 품사를 한번에 태깅하는 Discriminative sequence model도 존재. -> 이전 시퀀스의 품사가 주는 영향을 제한하게 된다. 

'Archive > TIL' 카테고리의 다른 글

[TIL] LTV란?, LTV의 예측  (0) 2022.05.07
[NLP] Syntax Analysis / Language Model.  (0) 2022.05.03
[NLP] 텍스트 전처리  (0) 2022.04.18
[TIL] ROC Curve 복습  (0) 2022.03.22
[TIL] curl 읽기  (0) 2022.03.17