본문 바로가기

Archive171

[TIL] Y 1차 면접 후기 1차 면접 보고 왔다. 탈탈 털렸다! 하지만 그만큼 생각도 많이 하게 되었고 공부한 것을 돌아볼 수 있었다. 당분간은, 다른 것 보다는 통계학을 다지는데 집중해야 할 것 같다. 생각보다 통계 질문에서 많이 무너지고, 잘 전달을 하지 못한 것 같다. 그리고 그 부분에 대해서도 피드백을 받을 수 있었다. 통계 지식을 명백하게 하고, 이를 다지는데에 집중하자..! 2022. 1. 18.
[Rec] Alternating Least Square와 Implicit Data를 활용한 추천 참고 [1] https://sungkee-book.tistory.com/13 [2] Paper - Collaborative Filtering for Implicit Feedback Datasets (Yifan Hu,, Yehuda Koren, Chris Volinsky) Implicit Data의 특성 파악하기 Implicit Data란, 추천 시스템에서 얻을 수 있는 평점 정보와는 다른 특성을 가지고 있다. 평점 정보는 1~5점 등으로 유저의 명백한 아이템에 대한 선호도를 보여주고 있다면, Implicit Data는 클릭 이력 등의 로그를 기반으로 학 있기에 다른 특성을 가지고 있다. - Negative한 feedback은 없다. - data에 noise가 많다. 즉 사용자가 이 아이템에 대해 선호도가.. 2022. 1. 17.
[Networkx] 다음 검색어 네트워크 분석 Network 사용법도 익힐겸, 크롤링도 다시 복습해 볼 겸 다음의 문제를 해결해 보려고 했다. [ 해결 문제 ] 다음 검색에서 '코로나'를 검색하면 연관 검색어가 나온다. 그 연관검색어를 다시 검색창에 입력하면 또 연관 검색어가 나올 것이다. 이렇게 3단으로 만들어진 검색어 라인을 한 줄로 만들어 데이터를 수집하고, 이들에 대한 관계를 시각화로 표현하자. Step 1. Daum 검색어 크롤링 # 연관어 분석을 위한 크롤링을 실시한다. import bs4 import pandas as pd import numpy as np import re import requests from bs4 import BeautifulSoup word = '코로나' url_based = 'https://search.daum... 2022. 1. 6.
[Rec] Learning to Rank 개념 * Learning to Rank가 대체 무엇인지 간단하게 알아보고자 한다. 추천 시스템의 목적으로 돌아가기 추천 시스템은 결국 사용자에게, 사용자가 좋아할만한 아이템을 추천해 주는 것이 목표이다. 추천 시스템의 문제 풀이 방향 2개를 복습하면 다음과 같다. 1) rating matrix 자체를 예측하는 것 2) rating 대신 top-k개를 예측하는 것 그런데 이전에 추천 시스템의 평가에 대한 내용을 상기해보면, 추천의 순서도 유의미할 것이다. 예를들어, top-5를 예측 후 사후에 확인해보니, 사용자가 top-5에 10점, 9점, 8점, 7점, 6점 순서로 5개에 평점을 매겼다. 그런데, 6점짜리를 가장 먼저 추천해줬다면? 아쉬운 결과일 것이다. Learning by Rank의 가장 궁극적인 목표는.. 2022. 1. 4.
[Rec] Factorization Machine이란? - 개괄잡기 관련 논문 : https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf 이번에는, Factorization Machine이 무엇인지 정도, 간단하게 감을 잡아보고자 한다. (구체적인 코딩 및 학습 과정을 위해선..아직 논문을 깊게 읽어봐야 합니다...) 들어가기 전에 - Matrix Factorization 역시, 이번에도 시작점은 Matrix Factorization이다. Matrix Factorization의 주요 목적은 평점행렬을 user에 대한 부분과 item에 대한 부분으로 나누는 것이다. 여기서, 주요하게 겪을 수 있는 문제는 행렬을 분해하던, 근사를 하던(truncated SVD) rating matrix가 비어있을 경우 어떻게 채울 것인가? .. 2021. 12. 29.
[TIL] N 과제/면접후기 자세한 면접후기나, 과제는 보안 상 남길수가 없고, 간단하게 받았던 피드백 두가지만 정리하고자 한다. - pytorch 학습 과정에서의 overfitting 고려 여러번의 epoch을 돌리는 동안 overfitting이 발생할 수 있다. 다 돌린다음에 검증하지 말고, 검증 결과를 도중에 정리하는 방식으로 모델을 만들 수 있을 것이다. (validation error를 저장해서 사용하는 방식) - ReLU 사용시, 반드시 scaling을 실시하자! 오늘도 크게 두 가지를 배웠다.! 아주 의미있는 면접, 그리고 도전적인 과제 기간이었다. 2021. 12. 28.