본문 바로가기

Archive/TIL48

[TIL] 220118 면접 오답노트 정리 - 표본오차 (sampling error) : 모집단 전체에 대해서 측정을 할 수 없을때 표본을 뽑아서 데이터를 측정하는데, 이에 의해 생긴 오차를 표본오차라고 한다. - 신뢰도 : 기본적으로 신뢰도는 표본 평균이, 모평균으로부터 표준 오차 범위 내에 들어갈 가능성을 의미한다. 그런데 모평균을 모른다. 따라서, 이를 관점을 바꿔서 해석하면, 표번 평균으로부터 표준오차 이내의 구간에 모평균이 들어갈 확률을 신뢰도라고 생각하면 된다. - 카이제곱 검정 다시 이해하기 뭔가, 분포에 대해서 이해를 제대로 하지 못하고 있는 느낌이다. 서비스의 개선이 이루어졌는지, 실제 이어졌는지 확인을 위해서 '동질성 검정'을 실시할 수 있을 것이다... 동질성 검정은 기본적으로 두 개 이상의 범주형 자료가 동일한 분포를 갖는 .. 2022. 1. 18.
[TIL] Y 1차 면접 후기 1차 면접 보고 왔다. 탈탈 털렸다! 하지만 그만큼 생각도 많이 하게 되었고 공부한 것을 돌아볼 수 있었다. 당분간은, 다른 것 보다는 통계학을 다지는데 집중해야 할 것 같다. 생각보다 통계 질문에서 많이 무너지고, 잘 전달을 하지 못한 것 같다. 그리고 그 부분에 대해서도 피드백을 받을 수 있었다. 통계 지식을 명백하게 하고, 이를 다지는데에 집중하자..! 2022. 1. 18.
[TIL] N 과제/면접후기 자세한 면접후기나, 과제는 보안 상 남길수가 없고, 간단하게 받았던 피드백 두가지만 정리하고자 한다. - pytorch 학습 과정에서의 overfitting 고려 여러번의 epoch을 돌리는 동안 overfitting이 발생할 수 있다. 다 돌린다음에 검증하지 말고, 검증 결과를 도중에 정리하는 방식으로 모델을 만들 수 있을 것이다. (validation error를 저장해서 사용하는 방식) - ReLU 사용시, 반드시 scaling을 실시하자! 오늘도 크게 두 가지를 배웠다.! 아주 의미있는 면접, 그리고 도전적인 과제 기간이었다. 2021. 12. 28.
[TIL] Python으로 시간 다루기 WAVVE Coding Test 참패당했다... 물론 평소 한거랑 조금 다른 계열의 분석 문제라는 핑계는 있지만.. 핑계는 핑계고 아무튼 시간을 다룬다던가, pivot 기능이 덜 숙지 되었다는 것이 부끄럽다. 그런 의미로 시간을 다루는 법을 한번 정리하였다. https://github.com/SeongwonTak/TIL_swtak/blob/master/Python_handling_time_series.ipynb GitHub - SeongwonTak/TIL_swtak: Today, I learned. Today, I learned. Contribute to SeongwonTak/TIL_swtak development by creating an account on GitHub. github.com 2021. 11. 2.
[TIL] 회귀분석의 가정 개요 회귀모델이 정말 적절했는지를 따져보기 위한 검토 방법중의 하나로 회귀 모델의 기본 가설이 잘 성립했는지를 확인해 보는것이 그 방법이 될 수 있을 것이다 회귀 분석의 기본 가정 4가지에 대해 알아보고 이에 대한 여러 검증 방법 및 시각화 방법에 대해 정리해본다. 선형회귀분석의 가정 선형회귀분석의 기본 4가지 가정은 다음과 같다. (1) 정규성 : 잔차가 평균이 0인 정규분포를 띈다. (2) 독립성 : 잔차 사이에는 상관관계가 없이 독립이어야 한다. (3) 등분산성 : 잔차의 분산은 입력변수와 무관하게 일정해야 한다. (4) 선형성 : 입력변수와 출력변수 사이에는 선형적인 관계를 띄어야 한다. 주의사항! 여기서 독립변수의 정규성이나 독립성 등을 따지는 것이 아니라 잔차의 정규성, 독립성을 따져야 한다... 2021. 10. 27.
[TIL] 나이브 베이즈 다시 이해하기 나이브 베이즈의 이해가 어려워 우선 간략하게 감을 좀 잡고, 좀 더 궁금한 내용을 찾아 한 번 제대로 정리해보려고 한다. Naive bayes는 무엇을 하고 싶은 것인가? 나이브 베이즈는 이름에서 보듯, 베이즈 정리에 기반을 한다. 주어진 데이터가 class들 중 어떤 class에 속할 것인지를 찾는 것이 문제이다. 이 때, 주어지는 feature를 바탕으로 확률을 계산하여, 어떤 클래스에 속할 확률이 높은지를 계산하고자 한다. 즉 P(Ci|x)에 대해 예측을 진행한다. 여러 feature의 경우는 독립이라고 가정을 하고 분석을 진행한다. Naive bayes를 다시 한마디로 정의하면, prior와 likelihood를 바탕으로 확률이 최대가 되는 class를 찾는 것이다. Naive bayes의 장단점.. 2021. 10. 5.