본문 바로가기

Topics277

[Data] 그래프 중심성에 대해 이해하기 Graph Centrality(중심성)이란? 중심성이란, 그래프에서 어떤 노드가 더 중요한지를 이해하기 위한 개념이다. 그래프의 연결 관계를 바탕으로 어떤 정보에 집중할지를 파악하고, 이를 분석한다. Graph Centrality 종류들 1. Degree Centrality 2. Betweenness Centrality 3. Closeness Centrality 4. Eigenvector Centrality 5. PageRank .... 다양한 Centrality가 존재한다. Graph Centrality 예시 Graph의 예시를 바탕으로, 각 Centrality를 개념적으로 이해하고자 한다. 이 글에서는 위의 예시의 1~4에 대해 이해하고자 한다. Degree Centrality 중심 노드에서 얼마나 .. 2022. 1. 25.
[Data] Support Vector Machine 이해하기 * 기본기를 다지기 위해, 무심코 넘어갔던가, 이해도가 부족한 부분을 정확하게 다시 공부하고 실습하려고 한다. Support Vector Machine이란? 분류 문제에서 사용 가능한 모델이다. 퍼셉트론 알고리즘은 오차를 최소화하는 결정경계를 찾느다면, 이를 조금 더 확장한 개념인 SVM은 " Support vector"를 활용한다. Support Vector Machine의 목표 Support vector Machine은 주어진 데이터가 어떤 클래스에 속하는지 분류하는 이진 분류 문제에 활용된다. 이 때, 데이터가 "선형적"으로 잘 분류될 수 있다면, 이 데이터를 가장 잘 분리하는 초평면을 찾는 것을 문제라고 한다. 어떤 평면을 찾게 되는가? 그러면 어떤 평면인지를 답해야하는데, 이는 "마진(margi.. 2022. 1. 24.
[Stat] t-분포와 F-분포 t-분포 z 통계량에서 t 통계량까지. 우선 정규분포의 표본을 표준편차로 나눠 정규화한 z통계량의 경우에는 하나의 문제가 있다. 이를 구하기 위해서는 우리는 확률분포의 정확한 표준편차를 알아야 한다. 그런데 모집단 전체에 대한 정보를 알 수 없을 때 우리는 표본을 추출하여 사용해야 할 것이다. 현실적으로는 표준편차를 정확히 알 수 없기에 표본에서 측정한 표본표분편차로 정규화 할 수 밖에 없다. 정규분포로부터 얻은 N개의 표본에서 계산한 표본평균을 "표본표준편차"로 정규화한 값을 t 통계량이라고 한다. 여기서 표본평균과, 표본표준편차는 다음과 같이 주어진다. t통계량은 자유도가 N-1인 스튜던트 t분포를 이루게 된다.. F-분포 카이제곱분포에서 F-분포까지. F-분포란, 카이제곱 분포를 따르는 독립적인 두.. 2022. 1. 23.
[Data] 데이터 파이프라인 구축 : 개요잡기 DE쪽 공부를 좀 접해보며, 폭을 넓혀보는 공부를 해보려고 한다. 이에 맞춰 오늘은 일단 DE를 공부하기 위해서 무엇을 공부해야 하는지, 어떤 체계들이 필요한지를 알아보자. 빅데이터 구축 및 분석의 단계 기본적으로 빅데이터 구축 및 분석은 다음의 단계를 거친다. 수집 -> 적재 -> 처리 -> 탐색 -> 분석 -> 응용 - 수집 : 내/외부 데이터 연동 및 통합 - 적재 : 대용량 데이터 실시간 처리 및 분산 파일 시스템 저장 - 처리 : 데이터 선택, 변환, 통합, 축소 - 탐색 : 대화형 데이터 질의 - 분석 : 데이터 마트 구성 및 통계분석 등 실시 - 응용 : 보고서 및 시각화, 분석 정보의 제공 Remark. ETL과의 차이? 데이터 ETL이라고 부르는 ETL은 다음과 같다. - E : Extr.. 2022. 1. 23.
[Stat] 표본평균 및 표본분산의 분포. 표본 평균의 분포 정규분포의 모집단 N(μ, σ²)에서 무작위로 추출한 n개의 측정치의 평균과 분산을 구하면 다음과 같다. 표본들의 평균을 넣고 식을 쪼개면, 쉽게 유도할 수 있으므로 자세한 유도 과정은 생략한다. 중심극한 정리 여기서, 중심극한 정리를 생각해 볼 수 있다. 중심극한 정리는 다음과 같다. Thm. 중심극한 정리 평균이 μ이고, 분산이 σ²인 임의의 모집단으로부터 표본평균 x_bar를 n개 추출한다면, n이 충분히 클 때 표본평균들의 분포는 근사적으로 N(μ, σ²/n)을 따르게 된다. 중요한 포인트는 (1) 임의의 모집단에서, (2) 표본평균의 분포가 어떻게 될지를 보는 것이다. 평균이 아니라 분산이라면? - 카이제곱분포 먼저, 카이제곱분포란? k개의 서로 다른, 각각이 독립인 표준정규분.. 2022. 1. 21.
[Python] map * 그동안 무지성으로 코딩테스트 풀 때, 입력 받기 위해 했던 것이 대체 무엇인지 정확히 이해하자. map이란? map은 list나 tuple에 적용할 수 있는 함수로 map(함수, 개체) 형태로 정해, 개체의 각 원소에 동시에 특정 함수를 적용하게 된다. a = [1, 2, 3, 4, 5] a1 = list(map(lambda x : x * 2, a)) a2 = [] for i in range(len(a)): a2.append(a[i] * 2) 사실 이것은 동일한 작업을 해 주는데, 위에처럼 깔끔하게 작성할 수가 있다. list(map(int, input().split()))의 정체는? 이는 input().split()에 int를 적용하겠다 라는 뜻이다. # 입력으로 10, 20, 30 , 40, 50.. 2022. 1. 20.