본문 바로가기

Archive/데이터 분석 관련49

[Data] 자기 조직화 지도 (Self-Organizing Map) 이란? - 개요잡기 자기 조직화 지도, SOM이란? SOM은 비지도 신경망으로, 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 표현, 형상화하는 방법이다. SOM을 통해서 차원 축소와 군집화를 동시에 수행할 수 있게 된다. 고차원의 데이터에서 유사한 데이터들은 저차원에서는 서로 연결되게 된다. 즉 저차원에서의 유사도는, 원본 고차원 데이터에서 유사도가 최대한 보전이 되도록 학습시키는 것이 중요할 것이다. SOM의 구조 SOM은 두개의 층으로 구성되어 있다. - 입력층 입력 변수와 동일하게. 뉴런을 만든다. 이 때, 입력층에 있는 각각의 뉴런은 경쟁층에 있는 각각의 뉴런 모두와 연결되어 있다. (fully-connected) - 경쟁층 : 2차원 격자로 구성된 층 입력 변수에 따라 벡터가 한 점으로.. 2022. 2. 13.
[Data] Bayesian AB Test 참고 링크 https://yozm.wishket.com/magazine/detail/1034/ A/B 테스트를 하는 대표적인 두 가지 방법 A/B 테스트를 하는 대표적인 두 가지 방법론은 다음과 같다. - 빈도론 - 베이지안론 여기서는, 베이지안 관점에서의 A/B Test는 어떻게 해석이 되는지 알아보고자 한다. 기존의 빈도론적인 방법에서의 단점? - P-value를 어떻게 해석할 것인가? - 개선폭이 적으면 귀무가설을 채택하려는 경향이 있다. - 차이가 얼마가 나던, False Positive를 동일하게 평가해버린다. - 결정적으로, 대안이 원본보다 나을 확률에 관해 대답하고 싶을때, 빈도 주의적 방법으로는 접근하기 어렵다. 대안 : Bayesian A/B Test! 작은 개선도 잡아낼 수 있는 Bay.. 2022. 2. 9.
[Data] A/B Test란? A/B Test란 무엇인지, 어떻게 구현될 수 있는지, 실제 활용 (특히 게임쪽)에서 어떻게 사용될 수 있는지 한번 알아보고 공부하고자 한다. A/B Test란 무엇인가? A/B Test란, 새로운 업데이트나 UI, 알고리즘 등의 효과를 확인해보고 싶을 때 사용할 수 있는 실험 방법론이다. 기본적으로 실사용자를 '대조군'과 '실험군'으로 나누어 새로운 알고리즘을 적용했을때의 효과를 비교해보게 된다. A/B Test의 진행 방법 A/B Test의 기본 4단계 과정은 다음과 같다. 가설 설정 -> Metric 정의 -> 실험 설계 -> 결과 도출 1] 가설 설정 새롭게 적용하려는 대상과 관련된 가설을 설정한다. Ex) 다운로드 버튼 배치를 기존 좌측에서 우측으로 바꾸면 다운로드 수가 증가할 것이다. 2] M.. 2022. 2. 2.
[Data] 그래프 중심성에 대해 이해하기 Graph Centrality(중심성)이란? 중심성이란, 그래프에서 어떤 노드가 더 중요한지를 이해하기 위한 개념이다. 그래프의 연결 관계를 바탕으로 어떤 정보에 집중할지를 파악하고, 이를 분석한다. Graph Centrality 종류들 1. Degree Centrality 2. Betweenness Centrality 3. Closeness Centrality 4. Eigenvector Centrality 5. PageRank .... 다양한 Centrality가 존재한다. Graph Centrality 예시 Graph의 예시를 바탕으로, 각 Centrality를 개념적으로 이해하고자 한다. 이 글에서는 위의 예시의 1~4에 대해 이해하고자 한다. Degree Centrality 중심 노드에서 얼마나 .. 2022. 1. 25.
[Data] Support Vector Machine 이해하기 * 기본기를 다지기 위해, 무심코 넘어갔던가, 이해도가 부족한 부분을 정확하게 다시 공부하고 실습하려고 한다. Support Vector Machine이란? 분류 문제에서 사용 가능한 모델이다. 퍼셉트론 알고리즘은 오차를 최소화하는 결정경계를 찾느다면, 이를 조금 더 확장한 개념인 SVM은 " Support vector"를 활용한다. Support Vector Machine의 목표 Support vector Machine은 주어진 데이터가 어떤 클래스에 속하는지 분류하는 이진 분류 문제에 활용된다. 이 때, 데이터가 "선형적"으로 잘 분류될 수 있다면, 이 데이터를 가장 잘 분리하는 초평면을 찾는 것을 문제라고 한다. 어떤 평면을 찾게 되는가? 그러면 어떤 평면인지를 답해야하는데, 이는 "마진(margi.. 2022. 1. 24.
[Data] 데이터 파이프라인 구축 : 개요잡기 DE쪽 공부를 좀 접해보며, 폭을 넓혀보는 공부를 해보려고 한다. 이에 맞춰 오늘은 일단 DE를 공부하기 위해서 무엇을 공부해야 하는지, 어떤 체계들이 필요한지를 알아보자. 빅데이터 구축 및 분석의 단계 기본적으로 빅데이터 구축 및 분석은 다음의 단계를 거친다. 수집 -> 적재 -> 처리 -> 탐색 -> 분석 -> 응용 - 수집 : 내/외부 데이터 연동 및 통합 - 적재 : 대용량 데이터 실시간 처리 및 분산 파일 시스템 저장 - 처리 : 데이터 선택, 변환, 통합, 축소 - 탐색 : 대화형 데이터 질의 - 분석 : 데이터 마트 구성 및 통계분석 등 실시 - 응용 : 보고서 및 시각화, 분석 정보의 제공 Remark. ETL과의 차이? 데이터 ETL이라고 부르는 ETL은 다음과 같다. - E : Extr.. 2022. 1. 23.