본문 바로가기

Archive/TIL48

[TIL] 0603 TIL 과제를 하면서, 회귀 문제를 다시 연습해보았다. 그런데, R^2 가 18%가 나오는 이상 현상이 발생했다. 데이터를 뜯어본 결과, 분명히 값은 크게 차이나지 않게 나오고 있는데 전체적으로 예측값이 넓게 퍼진 것이 아닌 상황인지라 분류를 써야 하나 다른 모델을 써야 하나 고민했다. 그러나, 선형 회귀에서 R^2만이 모든 지표가 되지는 않을 것이다. 물론, R^2값이 전체적으로 회귀직선으로 설명할 수 있는 정도를 나타낼 것이나, 문제는 설명하는 y값이 완벽한 선형 상황을 만들고 있지는 않았다. 그러나 Mean Absolute Mean을 활용한 결과, 그 오차는 크게 나타나지 않았다. R^2 값, 말고도 다양한 상황에 맞게 다양한 metric를 사용하는 것이 중요하다는 것을 알게 되었다. 2021. 6. 3.
[0602] 면접 오답노트 면접 오답노트를 만든다. 찾아보면서, 충분히 알 수 있던 건데 참 후회스러운 답변도 많다. 두 번 실책하지 않으면 되는거긴 하니까. (근데 카카오 판에서 이런 실책을 하다니) 1. 로지스틱 회귀 계수, x값 의미. 증명 다 해놓고 나 뭐했어. 라고 분명히 대답했으면 x값이 1 증가하면 오즈비가 e만큼 늘어나겠지... 나 뭐한거야... ㅠㅠㅠ 침착하자. 충분히 답할 수 있는 문제였다. 이건. 두번 다신 이런 실수 하지 말자. 2. 중심극한 정리의 의미 큰 수의 법칙과, 중심극한 정리를 완전히 잘못 알고 있었다. 두 개를 거의 동일한 개념으로 이해하고 있었다. 오개념 하나를 드디어 잡을 수 있다! 큰 수의 법칙 : 모집단에서, 무작위로 표본을 뽑을 때, 표본의 크기가 클 수록 그 평균은 전체 모집단의 평균에.. 2021. 6. 2.
[TIL] 0528 TIL - 다항회귀 또한, 선형회귀의 일종으로 해석할 수 있다. 이 때는, 기저 함수를 활용한다. from sklearn.preprocessing import PolynomialFeatures poly_features = PolynomialFeatures(degree = 3, include_bias = False) x_poly = poly_features.fit_transform(x) x, x^2, x^3 총 3개의 기저를 만들어주게 된다. - 파이썬에는 여러 종류의 random 함수가 존재한다. import random random.random() # 0이상 1미만의 임의의 숫자 1개 반환 random.randomrange(a, b) # a 이상 b 미만의 정수 반환 import numpy as np np.r.. 2021. 5. 28.
[DevCourse] 0514 TIL 0. 역시, 아직도 Flask라던가 Django 등 웹 쪽은 많이많이 약하다. 욕심 부리지말고, 기본 과제밖에 하지 못해도 정확하게 이해하고 넘어가는 것을 목표로 하자. 심화 과제는 나중에 실력 붙고 도전해도 늦지 않다. 1. 오늘 Flask 기본 과제는 재고 관리 관련이었다. 살짝 욕심을 내서, id / 상품명 / 재고 로 해도 충분하겠지만, 상품명 / 재고로 잡고, 상품명을 primary key로 하여 상품명이 겹칠 경우 Error 메세지를 직접 만들어 띄우는 방법쪽으로 가고 싶었으나, 잘 되지 않았다. 시도는 그냥 data를 받아와서 그 안에 name을 가져오는 방식을 원했는데, 애초에 데이터를 받아오면서 Error가 발생하는 시점이라, if문을 돌려서 조건읆 검색하는 시점보다 빨라버려 해당 방법은.. 2021. 5. 14.
[DevCourse] 인공지능 모델의 배포 DevCourse 4주차 Day2 - AWS를 활용한 인공지능 모델 배포 요약(실습 외) Cloud란? Before Cloud 클라우드 전에는, 인터넷 환경에서 서비스를 제공하기 위해 서비스 호스팅에 필요한 것을 구축해야 했다. (Ex - 데이터 센터, 서버/저장소, 보안, 관리인력.. 서버를 보관해둘 장소의 관리(전기, 온도 등등)) 이것이 매우 어렵기에, IDC 등장. (Internet Data Center) 그러나 서버 임대는 계약을 통해 일정 기간 임대를 하는 방법으로, 유연성이 부족. 인터넷 사용자의 증가, 사용자의 Needs 충족을 위해 필요할 때에 필요한 만큼 서버를 증설/관리가 필요하게 된다. Cloud Computing 언제, 어디서나 필요한만큼의 컴퓨팅 자원을 필요한 시간만큼 인터넷을 .. 2021. 5. 9.
[DevCourse] 0507 시계열 데이터 다루기 과제를 하면서, 시계열 데이터를 만났다. # Date -> 시계열 처리 ethcoin['Date'] = pd.to_datetime(ethcoin['Date']) # Date를 아예 인덱스로 처리 후 ethcoin.set_index('Date', drop=True, inplace=True) ethcoin = ethcoin.sort_index(ascending = True) # loc을 활용하여 앞 기간 ~ 뒤 기간으로 slicing ethcoin = ethcoin.loc['2016-06-01':'2017-06-30'] 이렇게 할 경우, date를 index로 빼서, 정렬등을 편리하게 할 수 있으며, 슬라이싱도 마지막 라인처럼 편히 쓸 수 있다. 2021. 5. 7.