pyspark-preprocessing

Spark Dataframe API를 사용하여 전처리 코드를 작성한 예시 모음집

`da-analysis-jupyter` Description

데이터 애널리스트 분석 코드를 지속적으로 업로드 할 전처리 소스코드 폴더

데이터 분석론과 물리 ERD의 따라 Dimension Table - Fact Table 간의 결합을 통한 obt 테이블을 먼저 생성해야 할 수도 있음
단순히 SQL 또는 프로그래밍으로 전처리하는 것이 중요한 것이 아니라, 멱등성이 있으면서 대규모 분산 처리에 스큐가 발생하지 않도록 동등한 map, reduce 작업이 발생되어야 함
해당 코드에서는 groupBy 집계의 기준(by에 사용되는 dimension)이 되는 컬럼을 데이터 소싱부터 분산해서 읽게 하여, 주요 집계시 shuffle을 최소화할 수 있도록 코드를 작성하였음
향후에도 backfill 등의 작업에서도 모든 파티션이 똑같이 분산처리를 수행하면서, 멱등성 있는 전처리를 계속 추가할 필요가 있음 (예정 및 보완 사항)

HDFS/Postgres에서 유동인구 데이터를 Sourcing하여 전처리 및 테이블 조인 후 Sink하는 소스코드 폴더

sys.path 또는 findspark를 사용하지 않는다면, OS 환경변수에 $SPARK_HOME이 있어야 하거나 파이썬 패키지를 빌드하여야 한다.

스파크 프로그램 설치시 default 로 설정하는 부분을 고려하여 OS.ENVIRON["SPARK_HOME"] 으로 spark 경로를 가져옴
만약 환경변수에 $SPARK_HOME 이 없다면, findspark 또는 sys.path.insert(0, 스파크 경로) 를 프로세스 시작부분(global 정의 부분)에 코드 수정 필요

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
da-analysis-jupyter		da-analysis-jupyter
pyspark-preprocessing		pyspark-preprocessing
tests		tests
.gitignore		.gitignore
README.md		README.md
docker-compose.yaml		docker-compose.yaml
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml