Skip to content

Development of spark modules in object oriented programming for covid19 data processing in csv format.

Notifications You must be signed in to change notification settings

JoseCondorGuere/pyspark_oop_covid19

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Ejecución y Prueba en Entorno Local Intellij

Requerimientos:

Se desarrolló en PySpark,

Ventajas:

  • Actualmente el código está parametrizado para poder recibir más archivos .csv, solo necesitamos agregar .csv en la carpeta data y modificar el archivo structureSchema.py la cual solicita definir el schema y el path , se explica la estructura post configuración de ambiente.

Primero,

  • Descomprimir el archivo 1. local , luego abrir Intellij IDEA y abrir proyecto covid19_spark

Alt text

  • Modificar configuraciones de ejecución

Alt text

  • Indicar la ruta del archivo main.py archivo que contiene la clase principal de ejecución

Alt text

  • Estructura de archivos

Alt text

Explicación de Módulos

  • src / Carpeta principal de código y recursos funcionales

    • main.py / Archivo principal de ejecución

    • jobs

      • ingest.py / Job de Lectura de datos y almacenarlo en dataframes para su reutilización en el proceso
      • dataClean.py / Job de limpieza de datos, para el ejemplo se hizo limpieza de campos string
      • dataProcess.py / Job de Escritura y validación Offset de Datos - Valida nuevos registros y los ingresa a la tabla actual
    • schema

      • structureSchema.py / Archivo primordial de configuración de Schemas y Path de archivos csv de la carpeta data
  • data / Carpeta donde se almacenan los archivos .csv

  • output / Carpeta de escritura en parquet

  • config / Carpeta de configuración de recursos de Spark

    • sparkSettings.json / Json que contiene las configuraciones de spark, memoria, instancias, core

Test de Clases y Ejecución Spark en Colab

Se modificó el código de ejecución local y se adaptó para realizar la prueba pertinente en Google Colab

Primero

Alt ts

  • Importar el notebook ubicado en el comprimido carpeta 2. colab

Alt text

Segundo, es necesario en crear la carpeta "data" y subir los 6 archivos .csv en la carpeta

imimg.png

Tercero, ejecutar todas las celdas

img_1.png

Finalmente validar la salida en la carpeta "output/" en formato parquet

About

Development of spark modules in object oriented programming for covid19 data processing in csv format.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published