Skip to content
This repository has been archived by the owner on Jul 6, 2023. It is now read-only.
/ Spark-TFG Public archive

Comparativa de las API de Spark en Scala y Python

Notifications You must be signed in to change notification settings

nipsn/Spark-TFG

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

49 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Spark-TFG

Comparativa de las API de Spark en Scala y Python


Este repositorio contiene todo el contenido desarrollado para la realización del TFG del mismo título.

En concreto contiene:

  • Notebooks con el código desarrollado en la carpeta "notebooks"
  • Script de automatización de migración + ejemplo de entrada y salida en la carpeta "autoregex"
  • Archivos relacionados con la memoria en "memoria".
  • Archivos relacionados con la presentación en "presentación".
  • En "data" está la tabla desarrollada a partir de otras que relaciona piloto con constructor y temporada.
  • En "memoria" además tenemos la hoja de cálculo con los datos recogidos para la comparativa en formato de hoja de cálculo de LibreOffice.

Para realizar esta comparativa, han realizado las siguientes queries tanto en la API de Spark de Python (PySpark) como en la API de Scala:

  • Fabricante más dominante en la década de los 90 (campeonatos ganados y carreras ganadas).
  • Piloto más consistente en la temporada 2012 (tiempos de vuelta en carrera vs tiempo en clasificación)
  • Mejor piloto de la historia.
  • Temporada más interesante para el espectador.
  • Análisis de temporada por piloto.

About

Comparativa de las API de Spark en Scala y Python

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published