본문 바로가기

전체 글277

[DB] Key 정리 Key란? 데이터베이스에서 검색이나 정렬을 수행할 시 tuple을 구분할 수 있는 attribute (attribute는 '특성' 정도로 이해하면 편하다) Key의 종류 - 후보키 - 기본키 - 대체키 - 외래키 - 슈퍼키 1) 후보키 후보키는 릴레이션을 구성하는 속성들에서, 튜플을 유일하게 식별하기 위해 사용하는 속성들의 부분집합이다. 모든 릴레이션에는 하나 이상의 후보키가 존재하게 된다. 이 때, 후보키는 다음의 특성을 만족해야 한다. 유일성 : 하나의 키 값으로는 하나의 튜플만을 유일하게 찾아낼 수 있어야 한다. 최소성 : 모든 레코드들을 유일하게 찾아내는데에 꼭 필요한 속성만으로 구성되어야 한다. Remark. 슈퍼키 슈퍼키는 유일성은 만족되나, 최소성이 만족되지 않는 경우를 뜻한다. 예를 들어,.. 2021. 8. 18.
[추천] AutoEncoder와 추천 시스템 개요 [참고자료] (1) https://tech.kakao.com/2020/04/29/kakaoarena-3rd-part1/ 멜론에서 음악 추천을 어떻게 할까? – 카카오 아레나 3회 대회(Part.1) 이 글은 멜론에서 음악 추천을 어떻게 할까? 카카오 아레나 3회 대회(Part.1)라는 이름으로 카카오 정책산업연구 브런치에 동시 개제되었습니다. 자신이 잘 모르는 분야에서 새로운 도전을 할 때 tech.kakao.com (2) 이전에 공부했던, 오토 인코더 내용 복습 https://github.com/SeongwonTak/TIL_swtak/blob/master/Auto_Encoder.ipynb GitHub - SeongwonTak/TIL_swtak: Today, I learned. Today, I learn.. 2021. 8. 14.
[추천] 추천 시스템의 개요 복습 추천 시스템의 개요 복습 추천 시스템이란? 추천 시스템은 유저가 정보를 제공한 아이템의 평점을 바탕으로 유저가 선호할만한 아이템을 찾는 것이 목표이다. 추천 시스템은 유저-아이템 의 평점 행렬을 채우는 문제로 귀결된다. 추천 시스템 문제를 접근 하는 방법은 크게 두 가지다. 1) 유저가 선호하는 top-k개의 아이템을 찾기 2) 특정 아이템에 특정 유저가 줄 평점을 직접 예측하기 추천 시스템의 분류 - Content based : 아이템의 특성을 기반으로 유사한 아이템을 추천해준다. - Collaborative Filtering : 본인과 유사한 유저가 좋아한, 높은 평점을 준 아이템을 추천해준다. - Hybrid approaches : 두개를 섞어서 쓴다. Content-based의 경우는, 아이템간의.. 2021. 8. 11.
[Data] 선형회귀에서의 변수 선택(AIC, VIF) 다중 공산성이란? 다중 공산성이란, 독립 변수의 일부가 다른 변수의 독립 변수의 조합으로 표현될 수 있는 경우를 뜻한다. 다중 공산성이 강할 경우, 부정확한 회귀 결과를 얻게 된다. 다중 공산성의 파악 방법, VIF 다중 공산성을 줄이기 위해서는 다른 독립변수에 의존하는 변수를 없애야 한다. - 산점도 그래프 - VIF(Variance Inflation Factor) VIF를 통해, 다른 변수에 의존적인 변수를 찾아낼 수 있다. i번째 변수의 VIF를 계산하면 다음과 같다. 여기서 는, 다른 변수로 i번째 변수를 선형회귀 할때의 R^2 값이다. 즉, 다른 변수에 의존적일 수록 VIF값이 커지게 된다. AIC와 BIC 변수가 많을 경우, 자연스럽게 다중공산성의 가능성이 커지므로 변수를 어떻게 생각할지 고려.. 2021. 8. 7.
[Data] Ensemble - Gradient Boosting 앙상블 학습은, 기존에 배웠던 여러 학습 모델들을 결합하여 사용하는 방법이다. XGBoost, LightGBM에 대해 알아보기 전에, 먼저 Gradient Boosting부터 정리하고자 한다. Boosting이란? Boosting은 앙상블 학습의 일종으로, 약한 분류기를 결합하여 더 강한 분류기를 만드는 과정이다. 즉 이전 학습에서 오차가 심했던 데이터에 가중치를 주는 방식을 예로 들 수 있다. 이를 통해 오차를 계속 보완해 나가는 일련의 과정을 거치게 된다 Bagging 또한 여러 개의 모델을 만드나, 각각의 모델은 서로 영향을 주지 않고 임의로 데이터 세트를 생성하여학습하게 된다. Gradient Boosting이란? Gradient Boosting의 가장 기본은 '모델이 예측한 데이터의 오차'를 가.. 2021. 8. 2.
[밑딥2] CBOW 모델과 skip-gram 모델의 수식 이해 밑바닥부터 시작하는 딥러닝 ch3.5 정리 CBOW 모델과 확률 - 기호 정리 P(A) : 사건 A가 일어날 확률 P(A, B) : 동시 확률로, 사건 A와 B가 동시에 일어날 확률 P(A|B) : 사후확률. B가 주어질 때, A가 일어날 확률 - 확률적 해석 w1, w2, .... , w t-1, wt 라는 말 뭉치가 주어질 때, 윈도우 크기에 따른 맥락을 고려하자. 윈도우 = 1 일때, 맥락 wr-1, wr+1에서 target이 wr이 될 확률은 P(w_r | w_r-1, w_r+1)으로 주어지게 된다. 여기서 w_t는 one-hot encoding 된 상태이므로, 교차 엔트로피를 구하면 다음과 같다. L = -log P(w_r | w_r-1, w_r+1) 이를 말뭉치 전체로 확장할 수도 있다. sk.. 2021. 8. 2.