https://yngie-c.github.io/nlp/2020/05/10/nlp_pos_tagging/
Pos tagging
기본적으로 크게, 다음 3가지로 나뉜다.
(1) Pointwise prediction
(2) Probabilistic prediction
(3) Neural Network based Models
(1) Pointwise prediction
Maximum Entrophy Model / Support Vector Machine 활용.
단어의 품사를 매길 때, 더 중요한 정보에 대해 가중치를 주는 방식으로 계산.
각 품사가 태깅될 확률을 계산한다.
(2) Probabilistic prediction
입력 문장을 X, 할당되는 품사를 Y라고 하자. argmax(Y|X)를 찾는 목표로 표현된다.
* Generative sequence models : 베이즈 확률을 이용한다.
이 때, 모든 토큰이 독립이라는 가정을 추가한다.
* Hidden Markov Models
(3) Neural Network based Models
신경망을 활용할때는,
- Window : 타겟 주위의 단어로부터 품사를 예측한다.
- Sentence : 문장 내 단어 특성화 -> 품사 태깅.
추가로, 모든 품사를 한번에 태깅하는 Discriminative sequence model도 존재. -> 이전 시퀀스의 품사가 주는 영향을 제한하게 된다.
'Archive > TIL' 카테고리의 다른 글
[TIL] LTV란?, LTV의 예측 (0) | 2022.05.07 |
---|---|
[NLP] Syntax Analysis / Language Model. (0) | 2022.05.03 |
[NLP] 텍스트 전처리 (0) | 2022.04.18 |
[TIL] ROC Curve 복습 (0) | 2022.03.22 |
[TIL] curl 읽기 (0) | 2022.03.17 |