* 풀잎스쿨 4주차 준비.
Syntax Analysis - 구문분석
https://www.youtube.com/watch?v=DdFKFqZyv5s&list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm&index=6
강의 요약.
+ 추가
https://wikidocs.net/21697
- Sentence이 들어왔을 때, 문법 구조를 분석하는 것.
-> 적절한 parser를 찾아줘야 한다.
parser의 속성
- Directionally : 방향성 (위에서 아래인지, 아래에서 위인지)
- Search strategy : 탐색 전략.(depth-first, breadth-first)
-> 언어의 모호성때문에 쉽지 않음
- Lexical ambiguity : 하나의 단어가 서로 다른 품사로 쓰일 수 있기에, 모호성을 가지고 있다.
- Structural ambiguity : 문장 구조로서의 모호함도 가진다.
Language Model -
Pos 태깅이 아니라, 문장에 어떤 확률을 부여하는 일.
Ex) Machine Translation, Spell Correction, Speech Recognition 등에 쓰임.
* Probabilistic Language Model
P(W) = P(w1, w2, ... wn)을 계산
-> upcoming word의 확률을 계산하는 문제와도 연관!
하지만, 마지막 단어를 계산해야 한다면..? 앞의 모든 단어를 고려해야 하는 어려운 상황이 발생한다.
-> unigram, bigram, N-gram을 고려하게 된 이유!
* Perplexity (PPL)
언어 모델을 어떻게 평가할지에 대해 고려해보고자 한다.
PPL을, 간단하게 표현하면 "헷갈리는 정도"로 표현할 수 있다. 즉, PPL이 높을수록 좋지 않다.
bigram을 적용해볼 수도 있고, 이 경우는 다음과 같다.
'Archive > TIL' 카테고리의 다른 글
[TIL] LSTM vs GRU 간단하게 정리. (0) | 2022.05.19 |
---|---|
[TIL] LTV란?, LTV의 예측 (0) | 2022.05.07 |
[TIL] 품사 태깅 알고리즘들. (0) | 2022.04.23 |
[NLP] 텍스트 전처리 (0) | 2022.04.18 |
[TIL] ROC Curve 복습 (0) | 2022.03.22 |