본문 바로가기
Archive/TIL

[NLP] Syntax Analysis / Language Model.

by 다람이도토리 2022. 5. 3.

* 풀잎스쿨 4주차 준비.

Syntax Analysis - 구문분석

https://www.youtube.com/watch?v=DdFKFqZyv5s&list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm&index=6
강의 요약.

+ 추가
https://wikidocs.net/21697

- Sentence이 들어왔을 때, 문법 구조를 분석하는 것. 
-> 적절한 parser를 찾아줘야 한다.

parser의 속성
- Directionally : 방향성 (위에서 아래인지, 아래에서 위인지)
- Search strategy : 탐색 전략.(depth-first, breadth-first)

-> 언어의 모호성때문에 쉽지 않음
- Lexical ambiguity : 하나의 단어가 서로 다른 품사로 쓰일 수 있기에, 모호성을 가지고 있다.
- Structural ambiguity : 문장 구조로서의 모호함도 가진다. 

Language Model - 

Pos 태깅이 아니라, 문장에 어떤 확률을 부여하는 일.
Ex) Machine Translation, Spell Correction, Speech Recognition 등에 쓰임.

* Probabilistic Language Model 
P(W) = P(w1, w2, ... wn)을 계산
-> upcoming word의 확률을 계산하는 문제와도 연관!

하지만, 마지막 단어를 계산해야 한다면..? 앞의 모든 단어를 고려해야 하는 어려운 상황이 발생한다.
-> unigram, bigram, N-gram을 고려하게 된 이유!

* Perplexity (PPL)

언어 모델을 어떻게 평가할지에 대해 고려해보고자 한다.
PPL을, 간단하게 표현하면 "헷갈리는 정도"로 표현할 수 있다. 즉, PPL이 높을수록 좋지 않다.

bigram을 적용해볼 수도 있고, 이 경우는 다음과 같다.

'Archive > TIL' 카테고리의 다른 글

[TIL] LSTM vs GRU 간단하게 정리.  (0) 2022.05.19
[TIL] LTV란?, LTV의 예측  (0) 2022.05.07
[TIL] 품사 태깅 알고리즘들.  (0) 2022.04.23
[NLP] 텍스트 전처리  (0) 2022.04.18
[TIL] ROC Curve 복습  (0) 2022.03.22