본문 바로가기

Archive/TIL48

[NLP] seq2seq / attention 간단개념 * 풀잎스쿨 7주차 대비. 참고자료 [1] https://www.youtube.com/watch?v=0lgWzluKq1k [2] https://wikidocs.net/24996 seq2seq란? seq2seq는 encoder와 decoder로 구성되어있음. 즉 정보를 압축하고, 이를 어떻게 표현할지에 대해 표현하는 모델 encoder : 입력 문장를 순차적으로 받아서 하나의 벡터로 (context vector) 만들기 decoder : context vector를 바탕으로 해석, 한 개의 단어씩 순차적으로 뱉는다. (softmax 활용 최종 출력 단어 결정) * encoder와 decoder 각각은 RNN/LSTM으로 구성됨. (물론 성능 문제로 실제로는 LSTM / GRU로 구성) * encoder의 .. 2022. 5. 25.
[TIL] LSTM vs GRU 간단하게 정리. 풀잎스쿨 6주차 대비. * LSTM - RNN의 장기 의존성(Long-Term Dependency) 문제를 해결하기 위해 제안. LSTM도, RNN처럼 체인처럼 연결된 형태를 가지고 있음. (1) 입력 게이트 : 현재 정보를 기억하기 위한 게이트 (2) 출력 게이트 : 최종 결과를 내보내기 위한 게이트 (3) 망각 게이트 : 과거 정보를 기억하기 위한 게이트 / 0~1 수로 얼마나 과거 정보를 유지할지를 결정함. * GRU LSTM의 장기 의존성에 대한 문제 해결책은 유지하며, 계산량을 줄인 버전. (1) Reset Gate : 이전 hidden state의 값을 얼마나 활용할 것인가에 대한 정보. (2) Update Gate : 이전 정보와 현재 정보를 어떻게 받아들일지 비율을 구하는 계산. 2022. 5. 19.
[TIL] LTV란?, LTV의 예측 * 간단하게 읽어 본 내용들에 대한 정리. https://danbi-ncsoft.github.io/works/2020/03/16/works-mobile_mkt_ltv.html https://sungmooncho.com/2011/11/21/customer-lifetime-value/ https://eat-toast.tistory.com/18 LVT란? LTV : Life Time Value로, 특정 서비스를 이용하는 고객이 그 기간 동안 얼마만큼의 이익을 가져다 줄 것인지에 대해 추정하는 것을 말한다. LTV를 간단하게 생각하면, LTV= (고객이 가져다 줄 이익의 총합) - (고객의 유치 및 유지에 드는 비용) 이를 조금 더 쪼개서 생각해 볼 수 있다. 이익 요소 - 최초 1년 동안의 이익, 그 다음 해.. 2022. 5. 7.
[NLP] Syntax Analysis / Language Model. * 풀잎스쿨 4주차 준비. Syntax Analysis - 구문분석 https://www.youtube.com/watch?v=DdFKFqZyv5s&list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm&index=6 강의 요약. + 추가 https://wikidocs.net/21697 - Sentence이 들어왔을 때, 문법 구조를 분석하는 것. -> 적절한 parser를 찾아줘야 한다. parser의 속성 - Directionally : 방향성 (위에서 아래인지, 아래에서 위인지) - Search strategy : 탐색 전략.(depth-first, breadth-first) -> 언어의 모호성때문에 쉽지 않음 - Lexical ambiguity : 하나의 단어가 서로 다른 품사로 쓰.. 2022. 5. 3.
[TIL] 품사 태깅 알고리즘들. https://yngie-c.github.io/nlp/2020/05/10/nlp_pos_tagging/ Pos tagging 기본적으로 크게, 다음 3가지로 나뉜다. (1) Pointwise prediction (2) Probabilistic prediction (3) Neural Network based Models (1) Pointwise prediction Maximum Entrophy Model / Support Vector Machine 활용. 단어의 품사를 매길 때, 더 중요한 정보에 대해 가중치를 주는 방식으로 계산. 각 품사가 태깅될 확률을 계산한다. (2) Probabilistic prediction 입력 문장을 X, 할당되는 품사를 Y라고 하자. argmax(Y|X)를 찾는 목표로 표현.. 2022. 4. 23.
[NLP] 텍스트 전처리 19기 풀잎스쿨에 참여하게 되어, 개인적으로 풀잎을 사전 학습하며 정리한 내용을 담아 가려고 합니다. 텍스트 전처리 참고자료 [1] https://wikidocs.net/21694 단어 토큰화 토큰화란? 주어진 코퍼스에서 토큰이라는 단위로 글을 나누는 작업을 토큰화라 한다. 기본적인 토큰화는, 구두점을 지우고 특수문자를 전부 제거하는 cleaning으로 충분하다. 하지만 몇 가지 문제를 고려해야 한다. (영어일 경우) 1. '를 어떻게 처리할까? (ex - Don't , George's, It's ... 이런거를 어떻게 다 구분할까?) 2. 모든 구두점과 특수 문자를 제외해서는 안되다. (ex state-of-the-art 이런거를, 제외한다고? ㄹㅇㅋㅋ) (햔국어일 경우) 1. 형태소 이슈 : 한국어는.. 2022. 4. 18.