O tema proposto pela equipe é realizar uma análise do perfil dos beneficiários por sexo e raça/cor para identificar se existe alguma disparidade na concessão de bolsas com base nessas características.
Neste desafio, proposto pelo programa Alpha EdTech, os grupos são criados pelos professores e deverá ser realizado os processos de "coleta", 'limpeza", "análise" e "visualização" de dados da Administração Pública brasileira tendo como requisitos:
- Uso das informações coletadas de um site da administração pública:
- Uso da biblioteca
Pandas
; - Este processo poderá estático, isto é, a coleta pode ser feita em apenas uma etapa sem a necessidade de processamento dinâmico de informações;
- A coleta normalmente será realizada processando-se um arquivo do tipo
CSV
por meio do uso doPandas
; - Deve-se realizar um tratamento para remover os dados não relevantes para o fim da aplicação ("limpeza").
- Links de referências (não se restringindo a apenas estes):
- Uso da biblioteca
- Uso de banco de dados relacional:
- Uso do Postgres;
- Mínimo de 5 tabelas;
- As tabelas principais devem ter no mínimo 10 mil registros cada;
- Não há a necessidade de uso de Spark, bastando o uso de Pandas;
- Utilizar comandos SQL para o cruzamento das informações.
- Implementar e detalhar um processamento segmentado em no mínimo 3 zonas:
- raw (dado cru);
- curated (dado limpo); e
- analytics (dado analisado).
- Montagem do data warehouse com as informações das tabelas:
- Devem utilizar algoritmos que demonstram a habilidade em estrutura de dados e complexidade de algoritmos.
- Visualização dos dados analisados usando
Dash
; - Uso da análise estatística dos dados usando
Plotly
:- Uso de estatística básica;
- Não é necessário o uso de regressões.
- Atualizar a versão atual com a remota;
- Criar ou voltar para branch;
- Adicionar e escolher uma atividade no Trello;
- Ao concluir uma atividade, abrir uma PR (pull request);
- Após atualizar na branch main, marcar a atividade como concluída no Trello.
- É proibido realizar commits e push na branch main;
- Ir para branch main, realizar fetch e merge e com a origin/main;
- Retornar a sua topic branch e realizar merge com a main. Observação: resolver os conflitos caso exista;
- Fazer push com repositório remoto;
- Abrir a PR e solicitar via Whatsapp para que os demais possam revisar;
- Pelo menos um revisor deve aprovar ou solicitar explicitamente quais correções devem ser feitas;
- Somente após todas as correções terem sido realizadas e, pelo menos um revisor ter aprovado, que o responsável da PR pode realizar o merge na main. Observação: caso na hora de realizar o merge o GitHub acusar algum conflito, a PR deve ir para o estado de draft e retornar para o passo 2;
- Após concluir uma PR, fica ao critério da pessoa em apagar ou não a topic branch.
- Python
- Poetry - Python dependency management and packaging made easy
- Pandas documentation
- PostgreSQL: The world's most advanced open source database
- Plotly Python Graphing Library
- Dash for Python | Plotly
- Comunicação: WhatsApp, Discord
- Gerenciamento de projeto: Trello
- Markdown: StackEdit
- Ícones: Emojipedia
Esse repositório está licenciado pela Mit License. Para mais informações detalhadas, leia o arquivo License contido nesse repositório.
Akira Couzack 🚀 |
Antônio dos Santos 🚀 |
Gustavo Souza 🚀 |
Janaína Scher 🚀 |
Vitória Feitosa 🚀 |