Esse é o repostório com o notebook utilizado para o workshop A3Lab-PySpark, realizado no dia 28/05/2021. O workshop consitiu em ensinar o básico da API de DataFrames do SparkSQL, passando por apectos básicos do uso da biblioteca pyspark.sql
até dicas e informações sobre a arquitetura e funcionamento do Spark como um todo. No notebook você vai encontrar
- Como ler e salvar dados utilizando o Spark
- Guias práticos dos principais métodos de um DataFrame
- Principais funções utilizadas para cada tipo de dados
- Métodos e dicas de manipulação de dados
- Características importantes do Spark, descritas com exemplos
- Dicas de otimização do Spark