본문 바로가기
자연어처리

[NLP] Word Embeddings - Basics

by 다람이도토리 2022. 4. 25.

* 풀잎스쿨 3주차 대비! 사전학습 

Embedding이란? - 자연어를 컴퓨터가 이해할 수 있는 숫자 형태로 변환.

임베딩의 여러 방법
1. 희소 표현 기반 임베딩 : One-hot Encoding
2. 횟수 기반 임베딩 : TF-IDF
3. 예측 기반 임베딩 : Word2Vec, FastText
4. 횟수/예측 기반 임베딩 : Glove
* 그 외 추가로, ELMO.

* 좋은 임베딩이란?

- 의미론적인 잘 차이를 보존할 수 있는지, 
- 유사한 관계에, 유사한 벡터 방향을 보여주는지
등등..

* One-hot Encoding의 단점

(1) 하나의 요소만 1 값을 가지고 나머지는 0을 가지기에, 내적을 구하면 무조건 모두 0이다.
-> 단어끼리의 관계성을 표현할 수 없다.
(2) 차원의 저주의 문제가 발생한다.

-> 다른 Embedding 방법이 필요하다.

*TF-IDF로 특정 단어가 출현한 빈도를 벡터화
TF : 문서 내에서 특정 단어가 출현한 빈도
IDF : 역문서 빈도로, 전체 문서에서 특정 단어가 포함된 문서의 개수를 나눈 값.(로그 사용)
-> 단어의 중요도를 분석할때 유용하게 활용 가능.