본문 바로가기
Archive/데이터 분석 관련

[Data] 데이터 파이프라인 구축 : 개요잡기

by 다람이도토리 2022. 1. 23.

DE쪽 공부를 좀 접해보며, 폭을 넓혀보는 공부를 해보려고 한다. 이에 맞춰 오늘은 일단 DE를 공부하기 위해서 무엇을 공부해야 하는지, 어떤 체계들이 필요한지를 알아보자.

빅데이터 구축 및 분석의 단계

기본적으로 빅데이터 구축 및 분석은 다음의 단계를 거친다.

수집 -> 적재 -> 처리 -> 탐색 -> 분석 -> 응용

- 수집 : 내/외부 데이터 연동 및 통합
- 적재 : 대용량 데이터 실시간 처리 및 분산 파일 시스템 저장
- 처리 : 데이터 선택, 변환, 통합, 축소
- 탐색 : 대화형 데이터 질의
- 분석 : 데이터 마트 구성 및 통계분석 등 실시
- 응용 : 보고서 및 시각화, 분석 정보의 제공

Remark. ETL과의 차이?

데이터 ETL이라고 부르는 ETL은 다음과 같다.
- E : Extract(추출)
- T : Transform(변환)
- L : Load(적재)

데이터 파이프라인은 데이터 ETL을 포함하는 상위 개념이라고 생각하면 된다.

그래서 대표적으로 어떤 기술을 사용하게 되는데?

이런저런거를 검색해보면 뭐 카프카니, 하둡이니, 스파크니 뭐가 뭔지를 알기가 어렵다.
일단 이것들이 어느 단계에서 무엇을 해주는 방법인지를 알아보자.

수집 단계

문제 목적에 맞게 데이터 소스를 수집하는 단계에 해당되다.
사용 가능 기술 예시 / Kafka, Flume 등.

적재 단계

수집된 정형/비정형 데이터를 알맞게 빅데이터 시스템에 저장하게 된다.
적재 단계에서 고려해야하는 것은 데이터의 특성, 그 중에서도 데이터의 발생 주기에 대해 고려해야 한다.

- 일괄 배치성 데이터 : 대용량 파일 전체를 영구 저장한다. 분산파일시스템을 활용한다.
ex) Hadoop, 주키퍼 등

- 실시간성 데이터 : 메시지 데이터등은 실시간으로 데이터를 받아와 저장 및 처리해야 하는 경우가 있다.
ex) HBase, 레디스, 스톰, 에스퍼 등

처리 / 탐색 단계

처리 및 탐색 단계로 데이터를 가공하고 이해하는 단계가 된다. 이를 위해서는 비정형 데이터를 저
사용 가능 기술 예시 / Hive, Spark

각 단계에서 어떤 일이 일어나는지, 기술을 사용하여 어떤걸 할 수 있는지 실습을 포함하여 진행하려고 한다