Archive171 [Stat] 회귀계수의 유의성 회귀계수의 유의성 검정 일변수 선형 회귀라고 상황을 가정하고(일차함수), 선형회귀 문제를 푼다고 가정하자. 만일, 기울기가 의미가 없다면, 기울기는 0이 될 것이고, 식은 상수항 형태를 가질 것이다. 다시 말해, 회귀계수가 무의미하다면, 0으로 떨어질 것이다. 즉, 우리는 이 값이 0이 아닌지에 대해 검정을 해야 할 것이다. 이를 확인하는 가설을 세워보자. t-test를 통한 유의성 검정 Step 1. 가설 설정 H0 : b1 = 0 (회귀계수는 의미가 있다고 할 수 없다.) H1 : b1 ≠ 0 (회귀계수는 의미가 존재한다.) 즉, 계수가 0이냐 아니냐를 판단하는, t-test 양측 검정을 진행하게 되는 것이다. Step 2. t통계량 계산 * 회귀계수의 표준편차는 어떻게 구하는가? 기울기의 분산을 추.. 2022. 7. 18. [Data] 군집화 결과 평가 들어가기 군집화를 실시했을 때, 군집이 잘 나누어졌는지 어떻게 평가할 수 있을까? 다른 분류나 회귀 문제 같은 경우는 어느정도의 정답이 있기에 f1-score나, R^2같은 명백한 지표가 존재한 반면, 군집화의 경우는 어떻게 평가해야 할지에 대해 고민해야 할 것이다. 이 방법을 알아보자. 어떤 것이 좋은 분류일까? 군집이 잘 분류가 되었다는 것의 의미닌, "군집 내 분산"은 최소로, "군집 간 분산"은 최대로 만드는 것이다. 즉, 집단이 차이가 있다면 최대한 이질성을 부여하고, 집단이 같다면 동질성을 최대한 높여주는 것이다. 큰 분류 군집화의 평가 방법은 크게, 내부 평가와 외부 평가로 나뉠 수 있다. 내부평가 : 스스로 클러스터링된 데이터를 바탕으로 평가. (밀도, 유사도 등을 판정!) 외부평가 : 이.. 2022. 7. 15. [TIL] 0713 아침스터디 - hyperparameter tuning(2) Bayesian optimization 자세히보기. 목적 함수와, hyperparameter의 쌍을 활용하여, 목적함수를 최대로 만드는 최적해를 찾는 문제로 바꾼다. * 사용되는 두가지 함수 - 목적 함수를 추정하는 함수(surrogate model) - 다음 입력값 후보를 추천하는 함수(accquisition model) 그런데, 어떻게 진행하는 것일까? * 목적함수가 최대화/최소화 되는 매개변수를 찾기 위해, 사전 분포를 활용한다. Bayesian optimization 의 절차 개요 1. 임의로 데이터 포인트 생성 / 평가 2. surrogate model로 추정을 실시. 3. 현재의 결과로 목적 함수를 최대화 하는 x값 탐색 4. 해당 값에 대한 평가 실시 및 x를 데이터 포인트에 추가 탐색을 할.. 2022. 7. 13. [TIL] 0711 아침스터디 - Hyper Parameter tuning(1) Hyper Parameter Tuning의 대표적 3가지 방법 1. Grid Search 2. Random Search 3. Bayesian Optimization Grid Search. Hyperparameter를 일정한 간격으로 변경하여, 최적의 파라미터를 찾아가는 기법. * 사전에 탐색할 값들을 미리 지정해주고, 그 값들의 모든 조합을 바탕으로 최고점을 찾아낸다. -> Problem : 최적의 해를 찾을 수 없다 / 동작 방식이 비효율적(찾을 필요가 없는 구간을 찾는다.) Random Search 위의 문제를 해결하기 위해 Hyperparameter의 값을 랜덤하게 선출하는 과정을 사용. * 사전에 탐색할 값들의 범위를 지정해주고, 가능한 조합을 바탕으로, 최고점을 찾는다. -> Grid Searc.. 2022. 7. 11. [TIL] 0708 아침스터디 / 표본추출 + Python의 랜덤 표본추출 방법의 가장 큰 분류 - 확률 표본추출 : 모든 대상이 표본으로 선정될 확률을 "동일하게 한 후" 무작위로 표본을 추출 - 비확률 표본추출 : 비확률적 방법으로 표본 추출. 확률표본추출 단순무작위 표본추출(Simple Random Sampling) - 표본을 균등한 확률로 임의로 추출 체계 표본추출(Systematic Sampling) - 하나의 표본을 랜덤으로 고른 후, k번째마다 추출 층화 표본추출(Stratified Random Sampling) - 모집단을 여러개의 층으로 분류, 각 층에서 표본을 임의추출. - 각 계층은, 게층끼리는 이질성이 있으나, 계층 내에서는 동질성을 유지해야 함. 군집 표본추출(Clustering Sampling) - 모집단을 군집으로 나눈 뒤, 군집을 추출하는 .. 2022. 7. 8. [TIL] 0706 아침 스터디 / t-SNE 추가 참고자료 https://gaussian37.github.io/ml-concept-t_sne/ https://lovit.github.io/nlp/representation/2018/09/28/tsne/ https://velog.io/@swan9405/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-T-SNE-T-distributed-Stochastic-Neighbor-Embedding PCA -> t-SNE PCA는 차원축소를 하면서, 축소된 데이터들이 "어떤 군집에 속하는지?"에 대답하기 어렵다. 이를 해결하기 위해, t-SNE를 활용. t-SNE란? (t-distributed stochastic neighbor embedding) * 고차원 데이터 -> 저차원(주로 2차원?)으로.. 2022. 7. 6. 이전 1 2 3 4 5 6 7 8 ··· 29 다음