데이터 엔지니어링1 [Pyspark] Pyspark 일단 사용해보기 Pyspark에 대해 자세하게 뜯어보기 전에, 우선 어떻게 사용하지는지부터 정리해보았습니다.Pyspark 세션 시작* 초기 환경 설정을 진행해야 한다. 자바, 파이썬 설치 이후 환경 변수 설정등을 모두 진행 후 시작해야 한다.from pyspark.sql import SparkSession # 세션 시작시 import# SparkSession이란, 스파크 응용 프로그램의 통합 진입점.spark = SparkSession.builder\ .master("local[*]")\ .appName('PySpark_Tutorial')\ .getOrCreate() 데이터 스키마 지정 후 데이터 불러오기* 초기에 데이터를 불러올 때 컬럼의 자료형이 지정되지 않을 수 있다. 이를 지.. 2024. 12. 1. 이전 1 다음