본문 바로가기

전체 글277

[NLP] Word Embeddings - Basics * 풀잎스쿨 3주차 대비! 사전학습 Embedding이란? - 자연어를 컴퓨터가 이해할 수 있는 숫자 형태로 변환. 임베딩의 여러 방법 1. 희소 표현 기반 임베딩 : One-hot Encoding 2. 횟수 기반 임베딩 : TF-IDF 3. 예측 기반 임베딩 : Word2Vec, FastText 4. 횟수/예측 기반 임베딩 : Glove * 그 외 추가로, ELMO. * 좋은 임베딩이란? - 의미론적인 잘 차이를 보존할 수 있는지, - 유사한 관계에, 유사한 벡터 방향을 보여주는지 등등.. * One-hot Encoding의 단점 (1) 하나의 요소만 1 값을 가지고 나머지는 0을 가지기에, 내적을 구하면 무조건 모두 0이다. -> 단어끼리의 관계성을 표현할 수 없다. (2) 차원의 저주의 문제가 발생.. 2022. 4. 25.
[TIL] 품사 태깅 알고리즘들. https://yngie-c.github.io/nlp/2020/05/10/nlp_pos_tagging/ Pos tagging 기본적으로 크게, 다음 3가지로 나뉜다. (1) Pointwise prediction (2) Probabilistic prediction (3) Neural Network based Models (1) Pointwise prediction Maximum Entrophy Model / Support Vector Machine 활용. 단어의 품사를 매길 때, 더 중요한 정보에 대해 가중치를 주는 방식으로 계산. 각 품사가 태깅될 확률을 계산한다. (2) Probabilistic prediction 입력 문장을 X, 할당되는 품사를 Y라고 하자. argmax(Y|X)를 찾는 목표로 표현.. 2022. 4. 23.
[NLP] 텍스트 전처리 19기 풀잎스쿨에 참여하게 되어, 개인적으로 풀잎을 사전 학습하며 정리한 내용을 담아 가려고 합니다. 텍스트 전처리 참고자료 [1] https://wikidocs.net/21694 단어 토큰화 토큰화란? 주어진 코퍼스에서 토큰이라는 단위로 글을 나누는 작업을 토큰화라 한다. 기본적인 토큰화는, 구두점을 지우고 특수문자를 전부 제거하는 cleaning으로 충분하다. 하지만 몇 가지 문제를 고려해야 한다. (영어일 경우) 1. '를 어떻게 처리할까? (ex - Don't , George's, It's ... 이런거를 어떻게 다 구분할까?) 2. 모든 구두점과 특수 문자를 제외해서는 안되다. (ex state-of-the-art 이런거를, 제외한다고? ㄹㅇㅋㅋ) (햔국어일 경우) 1. 형태소 이슈 : 한국어는.. 2022. 4. 18.
[Data] 시계열 분석 - AR, MA, ARMA, ARIMA 딥러닝 / Pytorch 교과서 Ch 7.1/7.2 내용 정리 시계열 문제란? 시간에 따라 변하는 데이터를 사용하여 추이 분석. 고전적 방법 : AR, MA, ARMA, ARIMA 사용 최근의 방법 : 딥러닝을 이용한 방법 AR, MA, ARMA, ARIMA 각각에 대한 정확한 이해 보다는, 어떤 개념인지만 간단하게 알아보고 실습을 통해 파악하는데에 중점을 둔다. AR (Auto Regressive) 자기회귀 모델은, 이전 관측값이 이후 관측 값에 영향을 준다는 아이디어에서 출발한다. 식의 형태를 보면 알수 있듯이, t 시점을 예측하기 위해 t-1 ~ t-p 총 p개의 시점을 활용한다. MA (Moving Average) 이동 평균의 경우는 오차를 활용하게 된다. 이전 데이터의 오차에서 현재 데이터의 상.. 2022. 4. 7.
[DL] 전이학습 개념 간단하게. * 딥러닝 파이토치 교과서 내용(ch5.3)을 바탕으로, 추가로 찾은 내용들을 포함하여 개념 위주로 간단히 정리했습니다. 전이학습(transfer learning)이란? 전이학습이란, 아주 큰 dataet을 이용하여 훈련된 모델을 가져와 우리가 해결하려는 문제에 보정하여 사용하는 것을 의미한다. 즉, 사전 학습된 모델(pre-trained model)을 이용한다는 것을 의미한다. Example) ImageNet 즉, 비교적으로 적은 수의 데이터를 가지고 있어도 이미 학습된 모델을 활용하면 주어진 문제를 더 잘 해결할 수 있을 것이다. 전이 학습은 보통, 이미지 관련 문제에서 많이 활용하게 된다. 어떻게 활용할 것인가? - 특성 추출 기법 우선 CNN의 구조를 다시 간단하게 생각해보면 입력 데이터 -> 합.. 2022. 3. 30.
[Data] 이상탐지 문제 소개 Anomaly Detection 문제에 대한 소개 이상탐지 문제란, 주어진 문제에서 일반적인 특성을 따르지 않는 데이터를 찾아내는 작업이다. Ex> 불량 데이터, 오류 데이터, 예외, 새로운 패턴 등등 에 의해 이상치가 발생한다. 즉, 일반적으로 다른 데이터의 범주와 확연이 구분이 될 때, 이를 이상치로 보게 된다. Anomaly Detection의 종류 학습 데이터의 특성에 따라, 크게 다음 3가지로 나눌 수 있다. (1) Supervised Anomaly Detection : 학습 데이터에 정상 데이터, 비정상 데이터 label이 모두 존재 (2) Semi-Supervised(One-Class) Anomaly Detection : 정상 데이터만을 가지고 학습 (3) Unsupervised Anomal.. 2022. 3. 27.