본문 바로가기

전체 글277

[Data] ROC Curve ROC Curve란? 임계값에서 분류 모델의 성능을 보여주는 그래프이다. 임계값 부근에서는 분류가 잘못 일어나는 경우도 발생하는데, 이에 대한 성능을 그래프를 통해 측정할 수 있다. 용어 정리 다시 한번, 이진 분류 문제에서의 용어를 정리해보자. 실제 양성 실제 음성 양성 판단 TP FP 음성 판단 FN TN TPR : 실제로 양성인 케이스를 양성으로 분류하는 정도 FPR : 실제로 음성인 케이스를 양성으로 잘못 분류하는 정도 ROC Curve 이해하기 ROC Curve는 임계값의 변화에 따른 FPR과 TPR의 변화를 살펴보는 것이 목적이다. 만일, 양성 클래스와 음성 클래스가 잘 분리되었다면, FPR대비 TPR값이 더 크게 나올 것이다. 이 그림을 통해 이해해보자. 임계보다 작으면 음성, 임계보다 크면.. 2021. 8. 24.
[DB] 트랜잭션이란? 트랜잭션이란? 트랜잭션(Transaction)이란, 데이터베이스의 상태를 변화시키기 위해 수행하는 작업의 단위를 뜻한다. 데이터 베이스의 상태를 변화시킨다는 것은, 쿼리를 통해 데이터베이스에 접근 및 연산을 수행하는 것이다. 즉, - SELECT - INSERT - DELETE - UPDATE 등을 바탕으로 하나의 작업을 수행하는 것이다. 트랜잭션의 특징 - 원자성 : 트랜잭션은 데이터베이스에 모두 반영되던가, 전혀 반영되지 않아야 한다. - 일관성 : 작업 처리의 결과는 항상 일관성이 있어야 한다. - 독립성 : 다른 트랜잭션의 연산에 간섭할 수 없다. - 지속성 : 트랜잭션이 성공적으로 완료되었을 경우, 결과는 영구적으로 반영되어야 한다. 트랜잭션의 연산 Commit 한 개의 트랜잭션이 성공적으로 끝.. 2021. 8. 24.
[DB] 인덱스 간단히 개념잡기 인덱스(Index)란? 인덱스는 데이터테이블의 검색 속도를 향상시키기 위한 자료구조이다. 테이블에서 원하는 정보를 한 테이블 내에서 검색하면 시간이 오래 걸리기 때문에 사전에 인덱스를 생성하여 빠르게 조회할 수 있다. 인덱스 직관적으로 이해하기 index(색인)은 책의 목차를 생각하면 된다. 국어사전처럼, 매우 두꺼운 책에 목차가 없다면? 우리는 모든 페이지를 하나하나 다 읽어가면서 정보를 찾아야 할 것이다. 하지만, 색인이 있다면 우선 색인 테이블에서 해당 정보를 찾아 범위를 축소 시키고, 그 범위 내에서만 해당 정보를 찾으면 될 것이다. 인덱스의 장점과 단점 장점 - 테이블을 조회하는 속도, 그리고 성능을 향상시킬 수 있다. - 이에 따라 시스템에 가해지는 부하를 줄일 수 있다. 단점 - 인덱스를 관.. 2021. 8. 23.
[Data] 로지스틱 회귀분석의 해석 및 개선 로지스틱 회귀 분석의 해석 scikit-learn 혹은 stat-models를 통해서 로지스틱 회귀 분석이 진행 가능하다. 이에 따라 나온 계수의 의미의 해석에 대해 확인하자. 여기서는 stat-model을 활용한다. import statsmodels.api as sm X = sm.add_constant(X_train_reg) model = sm.Logit(y_train, X) results = model.fit() # 결과 요약표 출력 results.summary() # 회귀 계수 출력 results.params stat_model을 통해서는 다음과 같이 로지스틱 회귀 분석을 진행할 수 있다. 이 때, 계수는 로지스틱에 log를 취한 값이기 때문에, 바로 오즈비로 해석을 하는 오류를 범해서는 안된다. .. 2021. 8. 23.
[DL] 순환 신경망 RNN과 장단기메모리 LSTM 개요 참고 자료 https://wikidocs.net/60690 https://wikidocs.net/60762 이미지 출처 wikidocs - pytorch로 시작하는 딥러닝 입문 순환 신경망(RNN, Recurrent Neural Network) RNN은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내지만, 다시 은닉층의 노드로 보내 다음 계산의 입력으로 활용하는 특징을 가지고 있다. 그림으로 표현하여 살펴보면 입력 벡터가 출력벡터를 향해 가기 위해 은닉층 cell을 통과하는데 이 cell에서는 이전의 값을 기억하려고 한다. 이를 메모리 셀이라고 표현한다. 해당 메모리 셀은, 다음 입력의 연산에 사용되는 구조를 가지고 있다. 이를 그림을 통해 정리하면 다음과 같다. RNN의 수식.. 2021. 8. 21.
[추천] 추천 시스템과 Word2Vec 참고자료 [1] https://brunch.co.kr/@goodvc78/16 [2] https://eda-ai-lab.tistory.com/526 [3] https://wikidocs.net/102705 [4] https://www.sallys.space/blog/2018/05/18/Introduction-to-ReSys-part-2/ [ Word2Vec 복습 Word2Vec는, 문장 상에서 문맥을 통해 단어를 추측하는 방법이다. 이 때, 단어간 의미를 반영하는 벡터화를 활용 후 CBOW, 혹은 Skip-Gram을 활용한다. [복습] https://taksw222.tistory.com/100?category=475748 [밑딥2] 신경망에서의 단어 처리와 word2vec 목표 문장 상에서, 문맥을 통해 .. 2021. 8. 19.