본문 바로가기

Archive/데이터 분석 관련49

[Data] GridSearchCV GridSearch란? 모델을 결정해서 학습시킬 때, 모델의 하이퍼파라미터가 얼마일때가 가장 최적인지, 알기 어려운 경우가 많다. GridSearch를 통해서 최적값이 얼마인지 찾아줄 수 있다. 이의 구조에 대해 알아보고자 한다. K-fold and stratified K-fold 음? 이것부터 하는 이유는 무엇일까? 우리는 data set을 train set - validation set - test set으로 나누어서 훈련, 검증, 평가 한다. 이 과정에서 훈련셋과 검증셋의 경우는 K-fold를 활용하여 여러번 훈련 및 검증한다. 데이터셋을 K등분하여 분할하여 훈련하게 된다. 그런데, 여기서 Train / Test set은 임으로 분할하게 되는데, 만일 특정 label이 train에만 있거나 test.. 2021. 6. 14.
[Data] 분류 알고리즘 - Decision Tree, Random Forest 분류 문제의 개요 머신러닝 문제, 그 중 지도학습 문제중 하나인 분류 문제는 주어진 데이터가 어느 클래스에 속할 것인지를 예측해야 하는 문제이다. 이진 분류 문제일수도 있고 여러 개의 클래스로 분류할수도 있다. 분류 문제의 지표 분류 문제에서는, 얼마나 틀렸나? 를 확인하면 될 것이다. 즉 원하는 클래스가 아닌 다른 클래스로 배치되는 정도를 지표로 만들면 될 것이다. 이를 불순도 지표라고 한다. 불순도 지표에는 여러가지 예시가 있는데 대표적으로는 엔트로피, 지니불순도, 분류 오차가 있다. 엔트로피 만일 분류가 100% 정확하게 분류되어서, 엔트로피 값은 0이 되나, class가 2개의 샘플에 1 : 1로 동일하게 분포될 경우 엔트로피가 1의 값을 가지게 된다. 지니 불순도 잘못 분류될 확률을 최소화 시키.. 2021. 6. 1.
[Data] 로지스틱 회귀분석 개요 로지스틱 회귀는, 일반 선형회귀와는 성격이 다르다. 선형회귀는 결과가 연속형일때 사용한다면, 로지스틱 회귀는 결과가 범주형일 때 사용한다. 즉, 분류 문제를 푸는데 회귀의 모델을 사용하는 것이 로지스틱 회귀이다. 그런데, 왜 별도의 모델을 만든 것인가? 이진 분류 문제만을 고려한다면, 결과값은 0 -1 로 나올 것이다. 선형 회귀로는 Fitting이 어렵다. 따라서, 곡선을 사용하여 Fitting하게 된다. 오즈비와 로짓변환 로지스틱 회귀 모델에서는, 결과값을 확률의 형태로 얻게 되고 이를 활용하여 로지스틱 함수를 얻어낸다. 로지스틱 함수는 다음과 같이 정의한다.(정확하게는, 시그모이드 함수라고 부른다) 여기서 중요한 점은, 아무튼 이진 분류이므로 결과값이 0, 1 형태로 얻어내야 하는데 x값의 범.. 2021. 6. 1.
[Data] Scikit-learn을 통한 Pipeline 구축 https://github.com/SeongwonTak/TIL_swtak/blob/master/DataScience/scikitlearn_pipeline.ipynb SeongwonTak/TIL_swtak Today, I learned. Contribute to SeongwonTak/TIL_swtak development by creating an account on GitHub. github.com 개요 데이터 분석시에서는 범주형이나 스케일링, 정규화 같은 수많은 데이터 변환이 수행되어야 한다. (전처리) 이 과정을 한 번이 아닌 수 번을 해야 할 것인데 그 때마다 이 모든 변환을 직접 할 수는 없을 것이다. 다행스럽게도, Scikit-learn에서는 이 과정을 단순화 하는 도구로, 재사용하는 기능을 묶.. 2021. 6. 1.
[Data] p-value Revisited, p-hacking이란? 참고 : https://yeomko.tistory.com/37 p-value, 검정력에 대한 내용을 다시 복습해보며, p-hacking에 대해 알아보자 p-value의 해석 및 p-hacking이란? 아무튼, 분석을 했다고 생각해보자. 유의 수준이 0.05고.. p값은 0.05보다 작게 나왔다. 주어진 데이터에서 귀무가설이 참일 확률은 5% 이하....? 이렇게 생각하면 큰일난다! 우리는 p-value를 해석할때에는, 귀무가설이 참이라고 할 때, 현재의 데이터를 얻을 확률이라고 생각해야 한다. 이전에, p-value에 대해 알아보았을때 p-value의 정의를 내가 뽑은 통계량이 귀무가설에 따라 나올 확률이 몇%인가? 라고 했었다. 이것이 귀무가설이 참일 확률을 말하지는 않는다. 주의하자! 즉, p-val.. 2021. 5. 27.
[Data] 분류의 성능평가 - Confusion Matrix 분류 결과표(Confusion Matrix) 분류 문제에서 성능을 측정하는 방법은 여러가지인데, 그 중 Confusion Matrix란, 타겟의 원래 클래스와 모형이 예측한 클래스가 일치하는지 갯수로 센 결과를 표로 나타낸 것이다. 이진 결과표의 경우 (Binary Confusion Matrix) 양성이라고 예측 음성이라고 예측 실제 양성 양성 예측이 맞음 (True Posivite) 음성 예측이 틀림 (False Negative) 제 2종 오류 실제 음성 양성 예측이 틀림 (False Positive) 제 1종 오류 음성 예측이 맞음 (True Negative) 다양한 평가점수 정확도 : 전체 샘플 중 맞게 예측한 샘플 수의 비율 (accuracy) 정밀도 : 양성 클래스에 속한다고 에측한 것 중 실제.. 2021. 5. 18.