본문 바로가기

전체 글277

[0602] 면접 오답노트 면접 오답노트를 만든다. 찾아보면서, 충분히 알 수 있던 건데 참 후회스러운 답변도 많다. 두 번 실책하지 않으면 되는거긴 하니까. (근데 카카오 판에서 이런 실책을 하다니) 1. 로지스틱 회귀 계수, x값 의미. 증명 다 해놓고 나 뭐했어. 라고 분명히 대답했으면 x값이 1 증가하면 오즈비가 e만큼 늘어나겠지... 나 뭐한거야... ㅠㅠㅠ 침착하자. 충분히 답할 수 있는 문제였다. 이건. 두번 다신 이런 실수 하지 말자. 2. 중심극한 정리의 의미 큰 수의 법칙과, 중심극한 정리를 완전히 잘못 알고 있었다. 두 개를 거의 동일한 개념으로 이해하고 있었다. 오개념 하나를 드디어 잡을 수 있다! 큰 수의 법칙 : 모집단에서, 무작위로 표본을 뽑을 때, 표본의 크기가 클 수록 그 평균은 전체 모집단의 평균에.. 2021. 6. 2.
[Data] 분류 알고리즘 - Decision Tree, Random Forest 분류 문제의 개요 머신러닝 문제, 그 중 지도학습 문제중 하나인 분류 문제는 주어진 데이터가 어느 클래스에 속할 것인지를 예측해야 하는 문제이다. 이진 분류 문제일수도 있고 여러 개의 클래스로 분류할수도 있다. 분류 문제의 지표 분류 문제에서는, 얼마나 틀렸나? 를 확인하면 될 것이다. 즉 원하는 클래스가 아닌 다른 클래스로 배치되는 정도를 지표로 만들면 될 것이다. 이를 불순도 지표라고 한다. 불순도 지표에는 여러가지 예시가 있는데 대표적으로는 엔트로피, 지니불순도, 분류 오차가 있다. 엔트로피 만일 분류가 100% 정확하게 분류되어서, 엔트로피 값은 0이 되나, class가 2개의 샘플에 1 : 1로 동일하게 분포될 경우 엔트로피가 1의 값을 가지게 된다. 지니 불순도 잘못 분류될 확률을 최소화 시키.. 2021. 6. 1.
[Data] 로지스틱 회귀분석 개요 로지스틱 회귀는, 일반 선형회귀와는 성격이 다르다. 선형회귀는 결과가 연속형일때 사용한다면, 로지스틱 회귀는 결과가 범주형일 때 사용한다. 즉, 분류 문제를 푸는데 회귀의 모델을 사용하는 것이 로지스틱 회귀이다. 그런데, 왜 별도의 모델을 만든 것인가? 이진 분류 문제만을 고려한다면, 결과값은 0 -1 로 나올 것이다. 선형 회귀로는 Fitting이 어렵다. 따라서, 곡선을 사용하여 Fitting하게 된다. 오즈비와 로짓변환 로지스틱 회귀 모델에서는, 결과값을 확률의 형태로 얻게 되고 이를 활용하여 로지스틱 함수를 얻어낸다. 로지스틱 함수는 다음과 같이 정의한다.(정확하게는, 시그모이드 함수라고 부른다) 여기서 중요한 점은, 아무튼 이진 분류이므로 결과값이 0, 1 형태로 얻어내야 하는데 x값의 범.. 2021. 6. 1.
[Data] Scikit-learn을 통한 Pipeline 구축 https://github.com/SeongwonTak/TIL_swtak/blob/master/DataScience/scikitlearn_pipeline.ipynb SeongwonTak/TIL_swtak Today, I learned. Contribute to SeongwonTak/TIL_swtak development by creating an account on GitHub. github.com 개요 데이터 분석시에서는 범주형이나 스케일링, 정규화 같은 수많은 데이터 변환이 수행되어야 한다. (전처리) 이 과정을 한 번이 아닌 수 번을 해야 할 것인데 그 때마다 이 모든 변환을 직접 할 수는 없을 것이다. 다행스럽게도, Scikit-learn에서는 이 과정을 단순화 하는 도구로, 재사용하는 기능을 묶.. 2021. 6. 1.
[Python] 최단 경로 알고리즘, Dijkstra 알고리즘 참고자료 [1] https://m.blog.naver.com/ndb796/221234424646 23. 다익스트라(Dijkstra) 알고리즘 다익스트라(Dijkstra) 알고리즘은 다이나믹 프로그래밍을 활용한 대표적인 최단 경로(Shortest Path) 탐... blog.naver.com [2] 이것이 코딩테스트다 with 파이썬 다익스트라 알고리즘이란? 다익스트라 알고리즘은 최단 경로 문제를 푸는데, 다이나믹 프로그래밍을 활용하는 알고리즘이다. 이는, 하나의 최단 거리를 구하기 위해 그 이전까지 구한 최단 거리 정보를 그대로 사용한다는 것이다. 다익스트라 알고리즘의 개요 1. 출발 노드를 설정한다. 2. 최단 거리 테이블을 초기화한다. 3. 방문하지 않은 노드 중 최단거리가 가장 짧은 노드를 선택한다.. 2021. 5. 30.
[TIL] 0528 TIL - 다항회귀 또한, 선형회귀의 일종으로 해석할 수 있다. 이 때는, 기저 함수를 활용한다. from sklearn.preprocessing import PolynomialFeatures poly_features = PolynomialFeatures(degree = 3, include_bias = False) x_poly = poly_features.fit_transform(x) x, x^2, x^3 총 3개의 기저를 만들어주게 된다. - 파이썬에는 여러 종류의 random 함수가 존재한다. import random random.random() # 0이상 1미만의 임의의 숫자 1개 반환 random.randomrange(a, b) # a 이상 b 미만의 정수 반환 import numpy as np np.r.. 2021. 5. 28.