forked from okfn-brasil/querido-diario
-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Add porto nacional #2
Open
ogecece
wants to merge
229
commits into
main
Choose a base branch
from
add-porto-nacional
base: main
Could not load branches
Branch not found: {{ refName }}
Loading
Could not load tags
Nothing to show
Loading
Are you sure you want to change the base?
Some commits from the old base branch may be removed from the timeline,
and old review comments may become outdated.
Open
Conversation
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
* Add Sumare-SP spider Closes: okfn-brasil#485 * Remove uso de variável gazette_data * Adiciona start_date e end_date * Corrige esfera de poder Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>
* Add `pe_jaboatao_dos_guararapes` spider (okfn-brasil#516) * Remove walrus para manter retrocompatibilidade * Corrige TERRITORY_ID * Adiciona start_date e end_date * adding jaboatao spider and update pipelines * fix imports * refactor extra edition * fix jaboatao gazette date and merge with main * Mescla raspador de okfn-brasil#227 com okfn-brasil#517 Co-authored-by: Thiago Curvelo <tcurvelo@gmail.com> Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>
* Add ma_caxias spider * Reestrutura código cosmeticamente * Corrige extração de número de edição e edição extra Quando uma edição é "extra", Caxias publica como número de edição vazio ou "0000". Complementando, as informações sobre a edição ser extra e o número da edição podem estar tanto no texto do link do documento como no próprio link. * Adiciona filtro por end_date * Adiciona log caso não encontre publicação no dia * Adiciona configurações para diminuir taxa de raspagem Configurações padrão (DOWNLOAD_DELAY=0.0 e CONCURRENT_REQUESTS=16) faziam com que o site respondesse muitas requisições com status 503, eventualmente perdendo requisições por excesso de tentativas. Após vários testes, os valores das configurações implementados não apresentaram problemas para a raspagem completa das publicações. * Corrige lógica de erro em documento Caso um documento não esteja disponível, a página não consegue fazer o embed dele e apresenta uma mensagem de erro. A versão anterior do código não raspava nada na página caso detectasse alguma mensagem de erro e a versão atual raspa outros documentos na página que não tenham mensagem de erro. * Remove extração de data desnecessária * Corrige extração de arquivos .p7s Arquivos com extensão .p7s não estavam sendo extraídos. Assim, a verificação de erros ignora (log de warning) apenas as mensagens conhecidas por ter URLs inválidas. Além disso, a extração de arquivos .p7s introduz erros de duplicidade no banco, pois alguns arquivos .pdf têm conteúdo igual aos respectivos .p7s. * Corrige identificação de número de edição Em 05/06/2017, o texto do arquivo é "· Download: DOM 05/06/2017 (clique para baixar)", assim, o padrão de regex antigo pegava o número de edição como "05". * Remove argumentos desnecessários Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>
Adiciona o raspador para o sistema novo (https://dome.recife.pe.gov.br/dome/) que contém as publicações atuais de Recife (PE). Para isso, o antigo raspador teve seu nome modificado para "pe_recife_acervo_2015_a_2020" e o novo passa a ter o nome "pe_recife", sendo o raspador principal. Também foram adicionados os atributos de classe `start_date` e `end_date` no raspador antigo. E as docstrings foram alteradas para refletir as mudanças.
Remove variáveis e reverse desnecessários | Delete unnecessary variables and reversing
Adiciona 4 cidades em produção | Add 4 new cities in production
With the increase in the number of spiders sending notification in Telegram for successfull executions is creating too many noise making it difficult to see the failures.
[João Pessoa](https://www.joaopessoa.pb.gov.br/noticias/prefeitura-de-joao-pessoa-vai-implantar-diario-oficial-eletronico/) changed the system that displays the gazettes. So we need to rewrite the spider to get all gazettes after 28/03/2022.
Atualiza dependências
Adapta Porto Alegre (RS) para produção
Adapta Curitiba (PR) para produção
Adapta Araguaína (TO) para produção
Adapta Jundiaí (SP) para produção
Adapta Petrolina (PE) (DOEM) para produção
Adapta Mossoró (RN) para produção
Fix ms_campo_grande
We need to allow to run the spider providing and `end_date` attribute, to avoid extra request for dates that we are not interested. By default `end_date` is set to the current date if not provided.
Signed-off-by: Renne Rocha <renne@rocha.dev.br>
Ajusta data de inicio okfn-brasil#845 de 2015 para 2001.
Signed-off-by: Renne Rocha <renne@rocha.dev.br>
Signed-off-by: Renne Rocha <renne@rocha.dev.br>
Signed-off-by: Renne Rocha <renne@rocha.dev.br>
**AO ABRIR** um Pull Request de um novo raspador (spider), marque com um `X` cada um dos items do checklist abaixo. **NÃO ABRA** um novo Pull Request antes de completar todos os items abaixo. #### Checklist - Novo spider - [x] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos. - [x] Você executou uma extração por período (`start_date` e `end_date` definidos) ao menos uma vez e os dados retornados estavam corretos. - [x] Você verificou que não existe nenhum erro nos logs (`log/ERROR` igual a zero). - [x] Você definiu o atributo de classe `start_date` no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade. - [x] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos [de acordo com a documentação](https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html#definicao-de-campos). #### Descrição PR referente à issue okfn-brasil#843 Código estava com problemas em: start_date e end_date não funcionavam corretamente. Falta de "Numero de edição" na coleta dos Diários. Excessivos requests em alguns Crawls pela falta de filtro nas datas Em geral o código está funcionando bem. Porém, quando rodei o código algumas vezes sem CACHE previ-o do site, senti que talvez por ele rodar varias paginas de um vez com callbacks, isso dificulte a conexão com o site e atrapalhe o desempenho em alguns momentos.
Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>
#### Checklist - Novo spider - [X] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos. - [X] Você executou uma extração por período (`start_date` e `end_date` definidos) ao menos uma vez e os dados retornados estavam corretos. - [X] Você verificou que não existe nenhum erro nos logs (`log/ERROR` igual a zero). - [X] Você definiu o atributo de classe `start_date` no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade. - [X] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos [de acordo com a documentação](https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html#definicao-de-campos). #### Descrição Resolves okfn-brasil#835 . Código atualizado para também capturar os dados do novo portal.
Signed-off-by: Kaio Duarte Costa <kaiod@riseup.net>
Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>
Atualiza README com seção sobre dicas de execução, adicionando flags úteis para quem desenvolve raspadores usando Scrapy
Signed-off-by: Kaio Duarte Costa <kaiod@riseup.net>
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
No description provided.