Este projeto demonstra a criação de uma pipeline de dados para um cenário fictício de fusão entre duas empresas. O objetivo é coletar os dados das duas organizações, combiná-los e aplicar as transformações necessárias para unificação e análise.
- Python: Para manipulação e transformação dos dados
- Pandas: Processamento e análise dos dados
- SQL: Armazenamento e consulta dos dados transformados
- Extração: Os dados são coletados a partir de arquivos CSV representando as bases das empresas A e B.
- Transformação:
- Padronização de nomes e formatos
- Remoção de duplicatas e dados inconsistentes
- Unificação dos datasets com base em chaves comuns
- Carga: Os dados consolidados são armazenados em um banco de dados SQL para análises futuras.
Certifique-se de ter instalado:
- Python 3.x
- Pandas
- SQLite (ou outro banco de dados relacional de sua escolha)
-
Clone este repositório:
git clone https://github.com/juliahown/pipelinelab.git cd pipelinelab -
Instale as dependências:
pip install -r requirements.txt