Skip to content

A Eleflow irá atender um novo cliente, a BigData Airlines, e você será o engenheiro de dados responsável por fazer a ingestão de dados e preparar algumas tabelas para os cientistas de dados e analistas de dados.

Notifications You must be signed in to change notification settings

CarlosESDidrich/data_engineer_test

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Eleflow BigData

Data engineering capstone

Sobre os arquivos:

  • DataEngonnerTest (Pasta inteira do projeto zipada)
  • VRA, AIC_CIA, Aerodromos (Dados zipados devido o tamanho)

BigData Airlines

A Eleflow irá atender um novo cliente, a BigData Airlines, e você será o engenheiro de dados responsável por fazer a ingestão de dados e preparar algumas tabelas para os cientistas de dados e analistas de dados.

Capstone

  • Carregar os dados de VRA
    • Normalizar o cabeçalho para snake case
    • Salvar estes dados
  • Carregar dos dados de AIR_CIA
    • Normalizar o cabeçalho para snake case
    • Separar a coluna 'ICAO IATA' em duas colunas, seu conteúdo está separado por espaço e pode não conter o código IATA, caso não contenha o código IATA, deixe o valor nulo.
    • Salvar estes dados
  • Criar nova tabela aerodromos
  • Criar as seguintes views (Priorize o uso de SQL para esta parte):
    • Para cada companhia aérea trazer a rota mais utilizada com as seguintes informações:
      • Razão social da companhia aérea
      • Nome Aeroporto de Origem
      • ICAO do aeroporto de origem
      • Estado/UF do aeroporto de origem
      • Nome do Aeroporto de Destino
      • ICAO do Aeroporto de destino
      • Estado/UF do aeroporto de destino
    • Para cada aeroporto trazer a companhia aérea com maior atuação no ano com as seguintes informações:
      • Nome do Aeroporto
      • ICAO do Aeroporto
      • Razão social da Companhia Aérea
      • Quantidade de Rotas à partir daquele aeroporto
      • Quantidade de Rotas com destino àquele aeroporto
      • Quantidade total de pousos e decolagens naquele aeroporto

Extras:

  • Descrever qual estratégia você usaria para ingerir estes dados de forma incremental caso precise capturar esses dados a cada mes?
  • Justifique em cada etapa sobre a escalabilidade da tecnologia utilizada.
  • Justifique as camadas utilizadas durante o processo de ingestão até a disponibilização dos dados.

Observações:

  • Você pode utilizar a tecnologia de sua preferência ou seguir a recomendação:
    • Notebooks Jupyter
    • Google Colab
    • Databricks Community
  • Pode incluir comentários sobre a abordagem de extração/transformação que você está fazendo
  • Pode disponibilizar o projeto via Git, URL ou .zip

About

A Eleflow irá atender um novo cliente, a BigData Airlines, e você será o engenheiro de dados responsável por fazer a ingestão de dados e preparar algumas tabelas para os cientistas de dados e analistas de dados.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published