본문 바로가기

Archive171

[TIL] 0528 TIL - 다항회귀 또한, 선형회귀의 일종으로 해석할 수 있다. 이 때는, 기저 함수를 활용한다. from sklearn.preprocessing import PolynomialFeatures poly_features = PolynomialFeatures(degree = 3, include_bias = False) x_poly = poly_features.fit_transform(x) x, x^2, x^3 총 3개의 기저를 만들어주게 된다. - 파이썬에는 여러 종류의 random 함수가 존재한다. import random random.random() # 0이상 1미만의 임의의 숫자 1개 반환 random.randomrange(a, b) # a 이상 b 미만의 정수 반환 import numpy as np np.r.. 2021. 5. 28.
[Data] p-value Revisited, p-hacking이란? 참고 : https://yeomko.tistory.com/37 p-value, 검정력에 대한 내용을 다시 복습해보며, p-hacking에 대해 알아보자 p-value의 해석 및 p-hacking이란? 아무튼, 분석을 했다고 생각해보자. 유의 수준이 0.05고.. p값은 0.05보다 작게 나왔다. 주어진 데이터에서 귀무가설이 참일 확률은 5% 이하....? 이렇게 생각하면 큰일난다! 우리는 p-value를 해석할때에는, 귀무가설이 참이라고 할 때, 현재의 데이터를 얻을 확률이라고 생각해야 한다. 이전에, p-value에 대해 알아보았을때 p-value의 정의를 내가 뽑은 통계량이 귀무가설에 따라 나올 확률이 몇%인가? 라고 했었다. 이것이 귀무가설이 참일 확률을 말하지는 않는다. 주의하자! 즉, p-val.. 2021. 5. 27.
[Prob] 우도(가능도) 최대우도 추정법 참고자료 및 출처 1. 프로그래머스 데브코스 인공지능과정 6주차 내용 2. https://www.youtube.com/watch?v=sOtkPm_1GYw 3. https://jjangjjong.tistory.com/41 4. http://contents.kocw.or.kr/KOCW/document/2015/chungbuk/najonghwa/3.pdf 5. https://everyday-image-processing.tistory.com/30 들어가면서 다음과 같은 문제를 풀고 싶다. 공이 200개가 있는 항아리가 있다. 여기에는 분명하게, 흰 공과 파란 공만이 섞여 있다. 여기에서 공을 20개를 뽑았다. 뽑은 20개의 공 중 흰 공은 8개다. 전체 항아리에는 파란 공이 몇 개 들어 있을까? 우리는 본능적.. 2021. 5. 27.
[Stat] 선형회귀분석이란? 선형회귀분석이란? 회귀는, x값에 따른 y값이 주어졌을 때, 이들의 경향을 가장 잘 대표하는 함수를 찾는 문제이다. 특별히, 연속형 변수에서 선형 함수를 찾는 문제를 선형회귀분석 이라고 생각하면 편하다. ex) 키와, 몸무게의 비교 최소제곱법과 오차함수 해당 파트내용 출처 : https://acdongpgm.tistory.com/70 생각해볼 수 있는 가장 대표적인 문제, 그러면 x와 y 관계가 어느 정도 선형성은 띄는데, 어느 직선이 가장 두 변수의 관계를 설명할 것인가? 그리고 오차는 어느정도인가? 두 문제를 생각해봐야 한다. 오차함수와 SSE, SSR, SST 선형회귀에서, 사용하는 오차함수는 잔차제곱합(SSE)라고 불리는 것이다. 실제값과 예측 값의차이를 제곱한 것을 모두 더한 것이 SSE다. 여.. 2021. 5. 26.
[Stat] Inverse CDF technique 프로그래머스 Week 6 Day 1 내용 중 정리. 추가참고 자료 : https://m.blog.naver.com/jinis_stat/221648391742 Inverse CDF technique를 적용하는 이유 샘플링 상황을 고려해보자. 연속 확률 분포에서 확률 밀도 함수는 확률변수 정의역내 x가 주어지면 확률값 P(x)를 돌려주게 된다. 그런데, 샘플을 뽑기 위해서 필요한 것은 P(x)가 아닌 x이다. 다시 말해 확률 밀도 함수 하나 만으로는 샘플링이 불가능하다. 따라서, 샘플을 뽑기 위해서는 output이 x가 되는 함수를 정의해야 한다. 대표적인 것은 Inverse CDF를 활용하는 것이다. Inverse CDF의 활용 근거, 샘플링의 조건 모든 확률분포의 누적 분포 함수는 [0, 1] 사이의 균.. 2021. 5. 24.
[Data] 분류의 성능평가 - Confusion Matrix 분류 결과표(Confusion Matrix) 분류 문제에서 성능을 측정하는 방법은 여러가지인데, 그 중 Confusion Matrix란, 타겟의 원래 클래스와 모형이 예측한 클래스가 일치하는지 갯수로 센 결과를 표로 나타낸 것이다. 이진 결과표의 경우 (Binary Confusion Matrix) 양성이라고 예측 음성이라고 예측 실제 양성 양성 예측이 맞음 (True Posivite) 음성 예측이 틀림 (False Negative) 제 2종 오류 실제 음성 양성 예측이 틀림 (False Positive) 제 1종 오류 음성 예측이 맞음 (True Negative) 다양한 평가점수 정확도 : 전체 샘플 중 맞게 예측한 샘플 수의 비율 (accuracy) 정밀도 : 양성 클래스에 속한다고 에측한 것 중 실제.. 2021. 5. 18.