Comparativa de las API de Spark en Scala y Python
Este repositorio contiene todo el contenido desarrollado para la realización del TFG del mismo título.
En concreto contiene:
- Notebooks con el código desarrollado en la carpeta "notebooks"
- Script de automatización de migración + ejemplo de entrada y salida en la carpeta "autoregex"
- Archivos relacionados con la memoria en "memoria".
- Archivos relacionados con la presentación en "presentación".
- En "data" está la tabla desarrollada a partir de otras que relaciona piloto con constructor y temporada.
- En "memoria" además tenemos la hoja de cálculo con los datos recogidos para la comparativa en formato de hoja de cálculo de LibreOffice.
Para realizar esta comparativa, han realizado las siguientes queries tanto en la API de Spark de Python (PySpark) como en la API de Scala:
- Fabricante más dominante en la década de los 90 (campeonatos ganados y carreras ganadas).
- Piloto más consistente en la temporada 2012 (tiempos de vuelta en carrera vs tiempo en clasificación)
- Mejor piloto de la historia.
- Temporada más interesante para el espectador.
- Análisis de temporada por piloto.