DE쪽 공부를 좀 접해보며, 폭을 넓혀보는 공부를 해보려고 한다. 이에 맞춰 오늘은 일단 DE를 공부하기 위해서 무엇을 공부해야 하는지, 어떤 체계들이 필요한지를 알아보자.
빅데이터 구축 및 분석의 단계
기본적으로 빅데이터 구축 및 분석은 다음의 단계를 거친다.
수집 -> 적재 -> 처리 -> 탐색 -> 분석 -> 응용
- 수집 : 내/외부 데이터 연동 및 통합
- 적재 : 대용량 데이터 실시간 처리 및 분산 파일 시스템 저장
- 처리 : 데이터 선택, 변환, 통합, 축소
- 탐색 : 대화형 데이터 질의
- 분석 : 데이터 마트 구성 및 통계분석 등 실시
- 응용 : 보고서 및 시각화, 분석 정보의 제공
Remark. ETL과의 차이?
데이터 ETL이라고 부르는 ETL은 다음과 같다.
- E : Extract(추출)
- T : Transform(변환)
- L : Load(적재)
데이터 파이프라인은 데이터 ETL을 포함하는 상위 개념이라고 생각하면 된다.
그래서 대표적으로 어떤 기술을 사용하게 되는데?
이런저런거를 검색해보면 뭐 카프카니, 하둡이니, 스파크니 뭐가 뭔지를 알기가 어렵다.
일단 이것들이 어느 단계에서 무엇을 해주는 방법인지를 알아보자.
수집 단계
문제 목적에 맞게 데이터 소스를 수집하는 단계에 해당되다.
사용 가능 기술 예시 / Kafka, Flume 등.
적재 단계
수집된 정형/비정형 데이터를 알맞게 빅데이터 시스템에 저장하게 된다.
적재 단계에서 고려해야하는 것은 데이터의 특성, 그 중에서도 데이터의 발생 주기에 대해 고려해야 한다.
- 일괄 배치성 데이터 : 대용량 파일 전체를 영구 저장한다. 분산파일시스템을 활용한다.
ex) Hadoop, 주키퍼 등
- 실시간성 데이터 : 메시지 데이터등은 실시간으로 데이터를 받아와 저장 및 처리해야 하는 경우가 있다.
ex) HBase, 레디스, 스톰, 에스퍼 등
처리 / 탐색 단계
처리 및 탐색 단계로 데이터를 가공하고 이해하는 단계가 된다. 이를 위해서는 비정형 데이터를 저
사용 가능 기술 예시 / Hive, Spark
각 단계에서 어떤 일이 일어나는지, 기술을 사용하여 어떤걸 할 수 있는지 실습을 포함하여 진행하려고 한다
'Archive > 데이터 분석 관련' 카테고리의 다른 글
[Data] 그래프 중심성에 대해 이해하기 (0) | 2022.01.25 |
---|---|
[Data] Support Vector Machine 이해하기 (0) | 2022.01.24 |
[Networkx] 다음 검색어 네트워크 분석 (1) | 2022.01.06 |
[Data] 데이터 분석 용어 - 이용자 및 매출에 대한 지표 요약 (0) | 2021.12.10 |
[Data] 범주형 변수의 Clustering (0) | 2021.10.28 |