Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add porto nacional #2

Open
wants to merge 229 commits into
base: main
Choose a base branch
from
Open

Add porto nacional #2

wants to merge 229 commits into from

Conversation

ogecece
Copy link
Owner

@ogecece ogecece commented Nov 24, 2023

No description provided.

mgiovani and others added 30 commits March 10, 2022 17:46
* Add Sumare-SP spider

Closes: okfn-brasil#485

* Remove uso de variável gazette_data

* Adiciona start_date e end_date

* Corrige esfera de poder

Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>
* Add `pe_jaboatao_dos_guararapes` spider (okfn-brasil#516)

* Remove walrus para manter retrocompatibilidade

* Corrige TERRITORY_ID

* Adiciona start_date e end_date

* adding jaboatao spider and update pipelines

* fix imports

* refactor extra edition

* fix jaboatao gazette date and merge with main

* Mescla raspador de okfn-brasil#227 com okfn-brasil#517

Co-authored-by: Thiago Curvelo <tcurvelo@gmail.com>
Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>
* Add ma_caxias spider

* Reestrutura código cosmeticamente

* Corrige extração de número de edição e edição extra

Quando uma edição é "extra", Caxias publica como número de edição
vazio ou "0000".

Complementando, as informações sobre a edição ser extra e o número
da edição podem estar tanto no texto do link do documento como no
próprio link.

* Adiciona filtro por end_date

* Adiciona log caso não encontre publicação no dia

* Adiciona configurações para diminuir taxa de raspagem

Configurações padrão (DOWNLOAD_DELAY=0.0 e CONCURRENT_REQUESTS=16)
faziam com que o site respondesse muitas requisições com status
503, eventualmente perdendo requisições por excesso de tentativas.

Após vários testes, os valores das configurações implementados
não apresentaram problemas para a raspagem completa das publicações.

* Corrige lógica de erro em documento

Caso um documento não esteja disponível, a página não consegue
fazer o embed dele e apresenta uma mensagem de erro. A versão
anterior do código não raspava nada na página caso detectasse
alguma mensagem de erro e a versão atual raspa outros documentos
na página que não tenham mensagem de erro.

* Remove extração de data desnecessária

* Corrige extração de arquivos .p7s

Arquivos com extensão .p7s não estavam sendo extraídos. Assim, a
verificação de erros ignora (log de warning) apenas as mensagens
conhecidas por ter URLs inválidas.

Além disso, a extração de arquivos .p7s introduz erros de
duplicidade no banco, pois alguns arquivos .pdf têm conteúdo igual
aos respectivos .p7s.

* Corrige identificação de número de edição

Em 05/06/2017, o texto do arquivo é
"· Download: DOM 05/06/2017 (clique para baixar)", assim, o padrão
de regex antigo pegava o número de edição como "05".

* Remove argumentos desnecessários

Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>
Adiciona o raspador para o sistema novo
(https://dome.recife.pe.gov.br/dome/) que contém as publicações
atuais de Recife (PE).

Para isso, o antigo raspador teve seu nome modificado para
"pe_recife_acervo_2015_a_2020" e o novo passa a ter o nome "pe_recife",
sendo o raspador principal.

Também foram adicionados os atributos de classe `start_date` e
`end_date` no raspador antigo. E as docstrings foram alteradas para
refletir as mudanças.
Remove variáveis e reverse desnecessários | Delete unnecessary variables and reversing
Adiciona 4 cidades em produção | Add 4 new cities in production
With the increase in the number of spiders sending notification in
Telegram for successfull executions is creating too many noise making it
difficult to see the failures.
[João Pessoa](https://www.joaopessoa.pb.gov.br/noticias/prefeitura-de-joao-pessoa-vai-implantar-diario-oficial-eletronico/) changed the system that displays the gazettes. So we need to rewrite the spider to get all gazettes after 28/03/2022.
Adapta Porto Alegre (RS) para produção
Adapta Araguaína (TO) para produção
Adapta Jundiaí (SP) para produção
Adapta Petrolina (PE) (DOEM) para produção
Adapta Mossoró (RN) para produção
We need to allow to run the spider providing and `end_date` attribute,
to avoid extra request for dates that we are not interested. By default
`end_date` is set to the current date if not provided.
rennerocha and others added 30 commits May 15, 2023 21:36
Signed-off-by: Renne Rocha <renne@rocha.dev.br>
Signed-off-by: Renne Rocha <renne@rocha.dev.br>
Signed-off-by: Renne Rocha <renne@rocha.dev.br>
Signed-off-by: Renne Rocha <renne@rocha.dev.br>
**AO ABRIR** um Pull Request de um novo raspador (spider), marque com um
`X` cada um dos items do checklist
abaixo. **NÃO ABRA** um novo Pull Request antes de completar todos os
items abaixo.

#### Checklist - Novo spider
- [x] Você executou uma extração completa do spider localmente e os
dados retornados estavam corretos.
- [x] Você executou uma extração por período (`start_date` e `end_date`
definidos) ao menos uma vez e os dados retornados estavam corretos.
- [x] Você verificou que não existe nenhum erro nos logs (`log/ERROR`
igual a zero).
- [x] Você definiu o atributo de classe `start_date` no seu spider com a
data do Diário Oficial mais antigo disponível na página da cidade.
- [x] Você garantiu que todos os campos que poderiam ser extraídos foram
extraídos [de acordo com a
documentação](https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html#definicao-de-campos).

#### Descrição

PR referente à issue okfn-brasil#843 

Código estava com problemas em:

    start_date e end_date não funcionavam corretamente.
    Falta de "Numero de edição" na coleta dos Diários.
    Excessivos requests em alguns Crawls pela falta de filtro nas datas

Em geral o código está funcionando bem. Porém, quando rodei o código
algumas vezes sem CACHE previ-o do site, senti que talvez por ele rodar
varias paginas de um vez com callbacks, isso dificulte a conexão com o
site e atrapalhe o desempenho em alguns momentos.
Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>
#### Checklist - Novo spider
- [X] Você executou uma extração completa do spider localmente e os
dados retornados estavam corretos.
- [X] Você executou uma extração por período (`start_date` e `end_date`
definidos) ao menos uma vez e os dados retornados estavam corretos.
- [X] Você verificou que não existe nenhum erro nos logs (`log/ERROR`
igual a zero).
- [X] Você definiu o atributo de classe `start_date` no seu spider com a
data do Diário Oficial mais antigo disponível na página da cidade.
- [X] Você garantiu que todos os campos que poderiam ser extraídos foram
extraídos [de acordo com a
documentação](https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html#definicao-de-campos).

#### Descrição

Resolves okfn-brasil#835 . Código atualizado para também capturar os dados do novo
portal.
Signed-off-by: Kaio Duarte Costa <kaiod@riseup.net>
Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>
Atualiza README com seção sobre dicas de execução, adicionando flags
úteis para quem desenvolve raspadores usando Scrapy
Signed-off-by: Kaio Duarte Costa <kaiod@riseup.net>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.