본문 바로가기

Topics277

[TIL] 0708 아침스터디 / 표본추출 + Python의 랜덤 표본추출 방법의 가장 큰 분류 - 확률 표본추출 : 모든 대상이 표본으로 선정될 확률을 "동일하게 한 후" 무작위로 표본을 추출 - 비확률 표본추출 : 비확률적 방법으로 표본 추출. 확률표본추출 단순무작위 표본추출(Simple Random Sampling) - 표본을 균등한 확률로 임의로 추출 체계 표본추출(Systematic Sampling) - 하나의 표본을 랜덤으로 고른 후, k번째마다 추출 층화 표본추출(Stratified Random Sampling) - 모집단을 여러개의 층으로 분류, 각 층에서 표본을 임의추출. - 각 계층은, 게층끼리는 이질성이 있으나, 계층 내에서는 동질성을 유지해야 함. 군집 표본추출(Clustering Sampling) - 모집단을 군집으로 나눈 뒤, 군집을 추출하는 .. 2022. 7. 8.
[TIL] 0706 아침 스터디 / t-SNE 추가 참고자료 https://gaussian37.github.io/ml-concept-t_sne/ https://lovit.github.io/nlp/representation/2018/09/28/tsne/ https://velog.io/@swan9405/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-T-SNE-T-distributed-Stochastic-Neighbor-Embedding PCA -> t-SNE PCA는 차원축소를 하면서, 축소된 데이터들이 "어떤 군집에 속하는지?"에 대답하기 어렵다. 이를 해결하기 위해, t-SNE를 활용. t-SNE란? (t-distributed stochastic neighbor embedding) * 고차원 데이터 -> 저차원(주로 2차원?)으로.. 2022. 7. 6.
[TIL] 0704 아침스터디 / VIF, LDA # VIF 다중공산성을 진단할 수 있는 지표. 다중공산성 : 회귀문제에서 독립변수간, 강한 상관관계가 나타나는 문제 (회귀분석의 기본 가정에 위배!) * 다중 공산성이 강하게 나타날 경우 여러 변수들 중 어떤 변수가 Y변수에 어느정도의 영향을 미치는지 정확하게 알 수 없어짐. * 다중공산성의 판단법? 회귀분석 결과의 각 독립변수의 p-val이 높다면? 의심. 독립변수들간의 상관관계를 통해 확인 가능, VIF를 통해 다중공산성 점검 가능. VIF란 ? i번째 변수를 제외하고, 만든 회귀 모델의 R^2값을 대입하여 계산한다. VIF > 10이라면, 식을 정리해보면 Ri > 10임을 알 수 있다. 즉 해당 변수가 없어도 설명이 잘 이루어지고 있음을 안다. 보통, VIF > 10일 경우, 해당 변수의 제외를 고.. 2022. 7. 4.
[Data] 대리분석 개요 출처 : XAI 설명 가능한 인공지능, 인공지능을 해부하다. Chapter 5-1,2 대리분석이란? 대리분석이란, 본래의 인공지능 모델이 너무 복잡해서 분석이 어려울 때, 유사한 기능을 흉내내는 모델 여러개를 만들어 본래 모델을 해석하는 기법을 말한다. 이 대리분석에 사용할 모델을 결정할 조건은 다음과 같다. (1) 원래의 모델보다 학습하기 쉬워야 한다. (2) 대리분석에 사용할 모델은 "설명 가능"해야 한다. (3) 원래의 모델을 유사하게 흉내낼 수 있으면 된다. 이렇게 할 경우, 대리분석의 모델은 원래 모델보다는 정확도는 조금 떨어지나, 충분히 모델을 대변할 수 있다. 이러한 대리 분석의 종류는 - 글로벌 대리 분석 : 전체 학습 데이터를 사용해 대리 분석 모델을 만든다. - 로컬 대리 분석 : 데이.. 2022. 6. 9.
[TIL] Transformer 간단정리. 풀잎스쿨 9주차 대비. 참고자료 [1] https://wikidocs.net/31379 [2] https://wdprogrammer.tistory.com/72 개요. * transformer는 2017년 구글이 발표한 논문 'Attention is all you need'에서 나온 모델. 기존의 seq2seq 구조인 encoder-decoder에서 각 encoder, decoder를 attention으로 제작. seq2seq -> attention을 사용했던 이유는 인코더가 입력 seq를 하나의 벡터로 압축하면서 정보가 날라가는 단점을 보정하기 위해 사용했는데, attention만으로 encoder와 decoder를 만들어 보면 어떻게 될지, 그리고 이렇게 한 것이 transformer이다. 기본적으로 .. 2022. 6. 8.
[NLP] seq2seq / attention 간단개념 * 풀잎스쿨 7주차 대비. 참고자료 [1] https://www.youtube.com/watch?v=0lgWzluKq1k [2] https://wikidocs.net/24996 seq2seq란? seq2seq는 encoder와 decoder로 구성되어있음. 즉 정보를 압축하고, 이를 어떻게 표현할지에 대해 표현하는 모델 encoder : 입력 문장를 순차적으로 받아서 하나의 벡터로 (context vector) 만들기 decoder : context vector를 바탕으로 해석, 한 개의 단어씩 순차적으로 뱉는다. (softmax 활용 최종 출력 단어 결정) * encoder와 decoder 각각은 RNN/LSTM으로 구성됨. (물론 성능 문제로 실제로는 LSTM / GRU로 구성) * encoder의 .. 2022. 5. 25.