GovBR News Scraper

Introdução

O GovBR News Scraper é uma ferramenta automatizada, em fase beta, desenvolvida pelo Ministério da Gestão e Inovação em Serviços Públicos (MGI). Este projeto experimental visa coletar notícias de vários sites de agências governamentais dentro do domínio gov.br (sites incluídos), facilitando o monitoramento e o arquivamento de dados de notícias governamentais. A ferramenta faz a raspagem e extração de artigos de notícias, incluindo metadados como título, data, categoria e conteúdo, e os armazena em um formato estruturado.

A ferramenta é executada de forma programada, raspando as notícias do dia anterior e atualizando o repositório automaticamente. Este projeto é útil para pesquisadores, jornalistas e desenvolvedores interessados em monitorar e analisar notícias governamentais.

Dados Disponíveis

Os dados extraídos estão disponíveis de forma centralizada no Hugging Face Hub, em dois formatos: dataset estruturado (compatível com a biblioteca datasets) e arquivos CSV.

Dataset Estruturado no Hugging Face

Para carregar o dataset diretamente no Python utilizando a biblioteca datasets:

Instale a Biblioteca datasets:
```
pip install datasets
```

Carregue o Dataset em Seu Código Python:

from datasets import load_dataset

dataset = load_dataset("nitaibezerra/govbrnews")

Explore o Dataset:

O dataset inclui os seguintes campos:
- unique_id: Identificador único de cada notícia.
- agency: Agência governamental que publicou a notícia.
- published_at: Data de publicação da notícia.
- title: Título da notícia.
- url: URL da notícia original.
- category: Categoria da notícia (se disponível).
- tags: Lista de tags associadas à notícia (se disponíveis).
- content: Conteúdo completo da notícia.
- extracted_at: Data e hora em que a notícia foi extraída.

Dados Disponíveis em CSV

Além do dataset estruturado, os dados estão disponíveis em arquivos CSV para facilitar o uso em ferramentas como Excel, Google Sheets, ou scripts personalizados:

Arquivo Global CSV:
- Um único arquivo contendo todas as notícias disponíveis.
- Acesse aqui: govbr_news_dataset.csv
Arquivos CSV por Agência (Órgão):
- Dados separados por agência governamental.
- Acesse os arquivos por agência nesta pasta: Agências
Arquivos CSV por Ano:
- Dados separados por ano de publicação.
- Acesse os arquivos por ano nesta pasta: Anos

Agendamento de Raspagem Automatizada

O repositório está configurado com uma GitHub Action que automaticamente raspa as notícias do dia anterior. O scraper é executado diariamente, garantindo que o dataset publicado no Hugging Face esteja sempre atualizado com as últimas notícias.

Todos os dias, o agendamento realiza as seguintes tarefas:

Raspa os artigos de notícias publicados ontem de todas as agências gov.br listadas.
Atualiza o dataset no Hugging Face com as novas notícias.

Essa configuração assegura que os dados permaneçam atualizados e acessíveis para todos os que utilizam o dataset.

Contribuições

Contribuições para melhorar o GovBR News Scraper são muito bem-vindas! Caso encontre bugs, tenha sugestões de melhorias ou queira adicionar novas funcionalidades, sinta-se à vontade para abrir uma issue ou enviar um pull request.

Estamos sempre abertos a contribuições que possam melhorar o projeto!

Name		Name	Last commit message	Last commit date
Latest commit History 110 Commits
.github/workflows		.github/workflows
src		src
tests		tests
.gitignore		.gitignore
README.md		README.md
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GovBR News Scraper

Introdução

Dados Disponíveis

Dataset Estruturado no Hugging Face

Dados Disponíveis em CSV

Agendamento de Raspagem Automatizada

Contribuições

About

Languages

nitaibezerra/govbrnews-scraper

Folders and files

Latest commit

History

Repository files navigation

GovBR News Scraper

Introdução

Dados Disponíveis

Dataset Estruturado no Hugging Face

Dados Disponíveis em CSV

Agendamento de Raspagem Automatizada

Contribuições

About

Topics

Resources

Stars

Watchers

Forks

Languages