Add porto nacional #2

ogecece · 2023-11-24T21:09:31Z

No description provided.

* Add Sumare-SP spider Closes: okfn-brasil#485 * Remove uso de variável gazette_data * Adiciona start_date e end_date * Corrige esfera de poder Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>

* Add `pe_jaboatao_dos_guararapes` spider (okfn-brasil#516) * Remove walrus para manter retrocompatibilidade * Corrige TERRITORY_ID * Adiciona start_date e end_date * adding jaboatao spider and update pipelines * fix imports * refactor extra edition * fix jaboatao gazette date and merge with main * Mescla raspador de okfn-brasil#227 com okfn-brasil#517 Co-authored-by: Thiago Curvelo <tcurvelo@gmail.com> Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>

* Add ma_caxias spider * Reestrutura código cosmeticamente * Corrige extração de número de edição e edição extra Quando uma edição é "extra", Caxias publica como número de edição vazio ou "0000". Complementando, as informações sobre a edição ser extra e o número da edição podem estar tanto no texto do link do documento como no próprio link. * Adiciona filtro por end_date * Adiciona log caso não encontre publicação no dia * Adiciona configurações para diminuir taxa de raspagem Configurações padrão (DOWNLOAD_DELAY=0.0 e CONCURRENT_REQUESTS=16) faziam com que o site respondesse muitas requisições com status 503, eventualmente perdendo requisições por excesso de tentativas. Após vários testes, os valores das configurações implementados não apresentaram problemas para a raspagem completa das publicações. * Corrige lógica de erro em documento Caso um documento não esteja disponível, a página não consegue fazer o embed dele e apresenta uma mensagem de erro. A versão anterior do código não raspava nada na página caso detectasse alguma mensagem de erro e a versão atual raspa outros documentos na página que não tenham mensagem de erro. * Remove extração de data desnecessária * Corrige extração de arquivos .p7s Arquivos com extensão .p7s não estavam sendo extraídos. Assim, a verificação de erros ignora (log de warning) apenas as mensagens conhecidas por ter URLs inválidas. Além disso, a extração de arquivos .p7s introduz erros de duplicidade no banco, pois alguns arquivos .pdf têm conteúdo igual aos respectivos .p7s. * Corrige identificação de número de edição Em 05/06/2017, o texto do arquivo é "· Download: DOM 05/06/2017 (clique para baixar)", assim, o padrão de regex antigo pegava o número de edição como "05". * Remove argumentos desnecessários Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>

Adiciona o raspador para o sistema novo (https://dome.recife.pe.gov.br/dome/) que contém as publicações atuais de Recife (PE). Para isso, o antigo raspador teve seu nome modificado para "pe_recife_acervo_2015_a_2020" e o novo passa a ter o nome "pe_recife", sendo o raspador principal. Também foram adicionados os atributos de classe `start_date` e `end_date` no raspador antigo. E as docstrings foram alteradas para refletir as mudanças.

Remove variáveis e reverse desnecessários | Delete unnecessary variables and reversing

Adiciona 4 cidades em produção | Add 4 new cities in production

With the increase in the number of spiders sending notification in Telegram for successfull executions is creating too many noise making it difficult to see the failures.

[João Pessoa](https://www.joaopessoa.pb.gov.br/noticias/prefeitura-de-joao-pessoa-vai-implantar-diario-oficial-eletronico/) changed the system that displays the gazettes. So we need to rewrite the spider to get all gazettes after 28/03/2022.

Atualiza dependências

Adapta Porto Alegre (RS) para produção

Adapta Curitiba (PR) para produção

Adapta Araguaína (TO) para produção

Adapta Jundiaí (SP) para produção

Adapta Petrolina (PE) (DOEM) para produção

Adapta Mossoró (RN) para produção

Fix ms_campo_grande

We need to allow to run the spider providing and `end_date` attribute, to avoid extra request for dates that we are not interested. By default `end_date` is set to the current date if not provided.

Signed-off-by: Renne Rocha <renne@rocha.dev.br>

Ajusta data de inicio okfn-brasil#845 de 2015 para 2001.

Signed-off-by: Renne Rocha <renne@rocha.dev.br>

**AO ABRIR** um Pull Request de um novo raspador (spider), marque com um `X` cada um dos items do checklist abaixo. **NÃO ABRA** um novo Pull Request antes de completar todos os items abaixo. #### Checklist - Novo spider - [x] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos. - [x] Você executou uma extração por período (`start_date` e `end_date` definidos) ao menos uma vez e os dados retornados estavam corretos. - [x] Você verificou que não existe nenhum erro nos logs (`log/ERROR` igual a zero). - [x] Você definiu o atributo de classe `start_date` no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade. - [x] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos [de acordo com a documentação](https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html#definicao-de-campos). #### Descrição PR referente à issue okfn-brasil#843 Código estava com problemas em: start_date e end_date não funcionavam corretamente. Falta de "Numero de edição" na coleta dos Diários. Excessivos requests em alguns Crawls pela falta de filtro nas datas Em geral o código está funcionando bem. Porém, quando rodei o código algumas vezes sem CACHE previ-o do site, senti que talvez por ele rodar varias paginas de um vez com callbacks, isso dificulte a conexão com o site e atrapalhe o desempenho em alguns momentos.

Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>

#### Checklist - Novo spider - [X] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos. - [X] Você executou uma extração por período (`start_date` e `end_date` definidos) ao menos uma vez e os dados retornados estavam corretos. - [X] Você verificou que não existe nenhum erro nos logs (`log/ERROR` igual a zero). - [X] Você definiu o atributo de classe `start_date` no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade. - [X] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos [de acordo com a documentação](https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html#definicao-de-campos). #### Descrição Resolves okfn-brasil#835 . Código atualizado para também capturar os dados do novo portal.

)

Signed-off-by: Kaio Duarte Costa <kaiod@riseup.net>

Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>

Atualiza README com seção sobre dicas de execução, adicionando flags úteis para quem desenvolve raspadores usando Scrapy

Signed-off-by: Kaio Duarte Costa <kaiod@riseup.net>

mgiovani and others added 30 commits March 10, 2022 17:46

Add Sumare-SP spider (okfn-brasil#514)

4a3bc48

* Add Sumare-SP spider Closes: okfn-brasil#485 * Remove uso de variável gazette_data * Adiciona start_date e end_date * Corrige esfera de poder Co-authored-by: Giulio Carvalho <giulioccavalcante@gmail.com>

Remove variáveis e reverse desnecessários

7ac3ef6

Merge pull request okfn-brasil#543 from giuliocc/corrige-sumare

9719568

Remove variáveis e reverse desnecessários | Delete unnecessary variables and reversing

Adiciona 4 cidades em produção

c6c5bb0

Merge pull request okfn-brasil#544 from giuliocc/add-prod

503ef5e

Adiciona 4 cidades em produção | Add 4 new cities in production

Upgrade all libraries to their latest versions

0c538ca

Send notification to Telegram only on failures

5c772e1

With the increase in the number of spiders sending notification in Telegram for successfull executions is creating too many noise making it difficult to see the failures.

Atualiza dependências

52249a1

Merge pull request okfn-brasil#553 from giuliocc/update-deps

aaddac6

Atualiza dependências

Adapta Porto Alegre (RS) para produção

da6c5d6

Merge pull request okfn-brasil#552 from giuliocc/new-spiders-prod

8e6bd04

Adapta Porto Alegre (RS) para produção

Atualiza dependências com Python 3.9

dd7e625

Merge branch 'update-deps'

8e12819

Adapta Curitiba (PR) para produção

74f1301

Merge pull request okfn-brasil#554 from giuliocc/curitiba-prod

b205c3c

Adapta Curitiba (PR) para produção

Adapta Araguaína (TO) para produção

91123db

Merge pull request okfn-brasil#555 from giuliocc/araguaina-prod

67ee490

Adapta Araguaína (TO) para produção

Adapta Jundiaí (SP) para produção

db9153a

Merge pull request okfn-brasil#556 from giuliocc/jundiai-prod

b288ec4

Adapta Jundiaí (SP) para produção

Adapta Petrolina (PE) (DOEM) para produção

5aebe88

Merge pull request okfn-brasil#557 from giuliocc/petrolina-prod

33560ad

Adapta Petrolina (PE) (DOEM) para produção

Adapta Mossoró (RN) para produção

7efedfa

Merge pull request okfn-brasil#558 from giuliocc/mossoro-prod

343994f

Adapta Mossoró (RN) para produção

Refactor ms_campo_grande spider to new website

071a499

Merge pull request okfn-brasil#457 from giuliocc/fix_ms_campo_grande

1b41e3a

Fix ms_campo_grande

Update end date parameter to allow filter by period

623580e

We need to allow to run the spider providing and `end_date` attribute, to avoid extra request for dates that we are not interested. By default `end_date` is set to the current date if not provided.

rennerocha and others added 30 commits May 15, 2023 21:36

Converter como data

1105b47

Signed-off-by: Renne Rocha <renne@rocha.dev.br>

Ajusta data de inicio para sp_santos (okfn-brasil#851)

c7c3635

Ajusta data de inicio okfn-brasil#845 de 2015 para 2001.

Melhoria na extração do número da edição

b80e1bc

Signed-off-by: Renne Rocha <renne@rocha.dev.br>

Habilitando Maringa-PR em produção

94863f7

Signed-off-by: Renne Rocha <renne@rocha.dev.br>

Acesso a URL com SSL para evitar redirecionamento

24273b3

Signed-off-by: Renne Rocha <renne@rocha.dev.br>

Update pr_maringa.py

6901226

Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>

Habilita smart_proxy para PR_Maringa (okfn-brasil#854)

93e0f3a

Fix rn_mossoro, resolves okfn-brasil#835

3faf687

Separa rn_mossoro em dois raspadores, por site vigente

79614cb

Permitir a execução de spiders em uma faixa de datas

f093e5d

Permitir a execução de spiders em uma faixa de datas (okfn-brasil#857)

39d7c02

Permitir a execução de spiders em uma faixa de datas

ead20d1

Permitir a execução de spiders em uma faixa de datas (okfn-brasil#858)

6a93176

Nova action para agendar spiders em um período de tempo

201f6ff

Nova action para agendar spiders em um período de tempo (okfn-brasil#859

f7bd4d4

)

Adicionar comando para agendar spiders mais generalista

3a29b0f

Adicionar comando para agendar spiders mais generalista (okfn-brasil#860

c4e5536

)

Adiciona o spider do município Varzea da Palma - MG

5cf372c

Signed-off-by: Kaio Duarte Costa <kaiod@riseup.net>

Habilita MG-Varzea de Palma em produção

01e7140

Add Várzea da Palma - MG (okfn-brasil#865)

6baf712

Update pull_request_template.md

2cb6792

Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>

Atualiza README com dicas de execução (okfn-brasil#867)

215e16a

Atualiza README com seção sobre dicas de execução, adicionando flags úteis para quem desenvolve raspadores usando Scrapy

Adiciona raspador para Taiobeiras - MG

182bed1

Signed-off-by: Kaio Duarte Costa <kaiod@riseup.net>

Habilita Taiobeiras - MG em produção

5dbb06b

Add Taiobeiras (MG) (okfn-brasil#866)

2348c6f

Desabilita Peritoro-MA de produção

86239f9

Desabilita Peritoro-MA de produção (okfn-brasil#880)

7bab59d

Adiciona Porto Nacional (TO)

ce481b6

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add porto nacional #2

Add porto nacional #2

ogecece commented Nov 24, 2023

Add porto nacional #2

Are you sure you want to change the base?

Add porto nacional #2

Conversation

ogecece commented Nov 24, 2023