* 풀잎스쿨 3주차 대비! 사전학습
Embedding이란? - 자연어를 컴퓨터가 이해할 수 있는 숫자 형태로 변환.
임베딩의 여러 방법
1. 희소 표현 기반 임베딩 : One-hot Encoding
2. 횟수 기반 임베딩 : TF-IDF
3. 예측 기반 임베딩 : Word2Vec, FastText
4. 횟수/예측 기반 임베딩 : Glove
* 그 외 추가로, ELMO.
* 좋은 임베딩이란?
- 의미론적인 잘 차이를 보존할 수 있는지,
- 유사한 관계에, 유사한 벡터 방향을 보여주는지
등등..
* One-hot Encoding의 단점
(1) 하나의 요소만 1 값을 가지고 나머지는 0을 가지기에, 내적을 구하면 무조건 모두 0이다.
-> 단어끼리의 관계성을 표현할 수 없다.
(2) 차원의 저주의 문제가 발생한다.
-> 다른 Embedding 방법이 필요하다.
*TF-IDF로 특정 단어가 출현한 빈도를 벡터화
TF : 문서 내에서 특정 단어가 출현한 빈도
IDF : 역문서 빈도로, 전체 문서에서 특정 단어가 포함된 문서의 개수를 나눈 값.(로그 사용)
-> 단어의 중요도를 분석할때 유용하게 활용 가능.
'자연어처리' 카테고리의 다른 글
[NLP] ELMo란 무엇일까? (0) | 2022.04.28 |
---|---|
[NLP] N-gram, Word2Vec, Glove의 간단 개요. (0) | 2022.04.27 |
[자연어] BERT 모델, 찍먹해보자. (0) | 2021.09.06 |
[자연어] 트위터 문자 분류 문제를 통한 자연어 처리 실습(1) (0) | 2021.09.01 |
[밑딥2] CBOW 모델과 skip-gram 모델의 수식 이해 (0) | 2021.08.02 |