É um site que disponibiliza diversas informações sobre empresas brasileiras que são listadas na B3. O Site possui um grande diferencial, visto que possui um banco de dados completo e sempre atualizado, apresentando de maneira gratuita informações relevantes para tomada de decisão.
O problema, é que o site não possui as informações de maneira unificada, ou seja, para conseguir as informações, torna-se necessário realizar diversas buscas, isto é, caso você deseje informações sobre empresas, seria necessário realizar dez buscas no site, um para cada empresa. Desse modo, a análise se torna limitada.
A oportunidade encontrada é reunir as informações de todas as empresas em um lugar só. Para efetuar uma análise mais detalhista, bem como identificar possíveis oportunidades de investimento.
O Objetivo deste código é demonstrar a extração de dados do site Fundamentus através da biblioteca Fundamentus e após isso, possibilitar que os dados extraídos possam ser analisados inicialmente via SQL ou qualquer outra ferramenta analítica.
Para implementação do código, foi utilizada apenas a plataforma Databricks juntamente com a linguagem Spark.
As implementações realizadas foram:
- Extração dos dados e armazenamento em um dataframe convencional
- Conversão do dataframe tradicional para spark dataframe
- Transformações aplicadas no spark dataframe para melhoria dos dados obtidos
- Criação de view temporária para manipulação via SQL
- Demonstração da manipulação via SQL
- Fundamentus - https://fundamentus.com.br/
- Biblioteca Fundamentus - https://pypi.org/project/fundamentus/