본문 바로가기

Archive171

[NLP] 텍스트 전처리 19기 풀잎스쿨에 참여하게 되어, 개인적으로 풀잎을 사전 학습하며 정리한 내용을 담아 가려고 합니다. 텍스트 전처리 참고자료 [1] https://wikidocs.net/21694 단어 토큰화 토큰화란? 주어진 코퍼스에서 토큰이라는 단위로 글을 나누는 작업을 토큰화라 한다. 기본적인 토큰화는, 구두점을 지우고 특수문자를 전부 제거하는 cleaning으로 충분하다. 하지만 몇 가지 문제를 고려해야 한다. (영어일 경우) 1. '를 어떻게 처리할까? (ex - Don't , George's, It's ... 이런거를 어떻게 다 구분할까?) 2. 모든 구두점과 특수 문자를 제외해서는 안되다. (ex state-of-the-art 이런거를, 제외한다고? ㄹㅇㅋㅋ) (햔국어일 경우) 1. 형태소 이슈 : 한국어는.. 2022. 4. 18.
[Data] 시계열 분석 - AR, MA, ARMA, ARIMA 딥러닝 / Pytorch 교과서 Ch 7.1/7.2 내용 정리 시계열 문제란? 시간에 따라 변하는 데이터를 사용하여 추이 분석. 고전적 방법 : AR, MA, ARMA, ARIMA 사용 최근의 방법 : 딥러닝을 이용한 방법 AR, MA, ARMA, ARIMA 각각에 대한 정확한 이해 보다는, 어떤 개념인지만 간단하게 알아보고 실습을 통해 파악하는데에 중점을 둔다. AR (Auto Regressive) 자기회귀 모델은, 이전 관측값이 이후 관측 값에 영향을 준다는 아이디어에서 출발한다. 식의 형태를 보면 알수 있듯이, t 시점을 예측하기 위해 t-1 ~ t-p 총 p개의 시점을 활용한다. MA (Moving Average) 이동 평균의 경우는 오차를 활용하게 된다. 이전 데이터의 오차에서 현재 데이터의 상.. 2022. 4. 7.
[DL] 전이학습 개념 간단하게. * 딥러닝 파이토치 교과서 내용(ch5.3)을 바탕으로, 추가로 찾은 내용들을 포함하여 개념 위주로 간단히 정리했습니다. 전이학습(transfer learning)이란? 전이학습이란, 아주 큰 dataet을 이용하여 훈련된 모델을 가져와 우리가 해결하려는 문제에 보정하여 사용하는 것을 의미한다. 즉, 사전 학습된 모델(pre-trained model)을 이용한다는 것을 의미한다. Example) ImageNet 즉, 비교적으로 적은 수의 데이터를 가지고 있어도 이미 학습된 모델을 활용하면 주어진 문제를 더 잘 해결할 수 있을 것이다. 전이 학습은 보통, 이미지 관련 문제에서 많이 활용하게 된다. 어떻게 활용할 것인가? - 특성 추출 기법 우선 CNN의 구조를 다시 간단하게 생각해보면 입력 데이터 -> 합.. 2022. 3. 30.
[Data] 이상탐지 문제 소개 Anomaly Detection 문제에 대한 소개 이상탐지 문제란, 주어진 문제에서 일반적인 특성을 따르지 않는 데이터를 찾아내는 작업이다. Ex> 불량 데이터, 오류 데이터, 예외, 새로운 패턴 등등 에 의해 이상치가 발생한다. 즉, 일반적으로 다른 데이터의 범주와 확연이 구분이 될 때, 이를 이상치로 보게 된다. Anomaly Detection의 종류 학습 데이터의 특성에 따라, 크게 다음 3가지로 나눌 수 있다. (1) Supervised Anomaly Detection : 학습 데이터에 정상 데이터, 비정상 데이터 label이 모두 존재 (2) Semi-Supervised(One-Class) Anomaly Detection : 정상 데이터만을 가지고 학습 (3) Unsupervised Anomal.. 2022. 3. 27.
[TIL] ROC Curve 복습 ROC Curve를 생각하는 이유 Binary Classification에서 재현율과 특이도는 서로 trade-off 관계에 놓여 있음 재현율 : 실제 양성들 중 얼마나 양성이라고 대답했는가? 특이도 : 실제 음성들 중 얼마나 음성이라고 대답했는가? 이 두 지표의 trade-off 관계를 표현하는 곡선이 바로 ROC 곡선이다. 실제 ROC 곡선의 경우 x축에 (1-특이도), y축에 재현율을 두게 된다. Remark. (1-특이도를) FPR로 표현하는 경우도 많다. 위의 관점을 바탕으로 그래프를 해석해보자. FPR이 증가한다 = 음성을 양성으로 잘못 예측하는 경우가 늘어난다. 즉, 이 경우 자연스럽게 양성으로 판단하는 비율 자체가 늘어나므로, 재현율도 일반적으로는 늘어날 것이다. AUC는 ROC CURVE.. 2022. 3. 22.
[Data] Imbalanced Data 다루는 Technique 정리 https://www.analyticsvidhya.com/blog/2021/06/5-techniques-to-handle-imbalanced-data-for-a-classification-problem/ 이 글의 내용을 중심으로, 추가 정보를 찾아보아 정리하였습니다. 한번쯤은, 다시 한번 생각의 흐름을 정리해볼 토픽이라 추가 내용을 조금 더 찾아보았습니다. 들어가기 분류 문제를 푸는 상황을 고려하자. 결과(target class)의 비율이 크게 차이가 나지 않다면, 깔끔하겠으나 세상은 쉽지 않다(?) Ex- 사기 검출 문제를 푼다고 생각하면, 사기 비율은 당연히 정상 케이스에 비해 지극히 적다. 불균형 데이터는 왜 문제가 될까? 불균형 데이터를 일반적인 방법대로 처리한다면 "편향"이 발생할 수 있게 된다.. 2022. 3. 20.