Extração de URLs de processos jurídicos

O script extraiURLs.py lê uma base de processos judiciais (documentos HTML) de Tribunais Regionais Eleitorais e imprime numa planilha xlsx todas as URLs contidas nesses processos, juntamente com os contextos (trechos de texto) e os documentos processuais específicos em que essas URLs aparecem. A base está organizada da seguinte maneira: os documentos de um mesmo processo estão reunidos em uma pasta cujo nome é o código desse processo; as pastas dos processos de um determinado TRE estão reunidas em uma pasta cujo nome especifica o TRE (jurisdição) em questão; as pastas de cada um dos TREs (jurisdições) estão reunidas em uma única grande pasta.

O formato de impressão é o seguinte: Código do processo | Jurisdição | URL | Contexto | Documento

O script também cria um arquivo com as URLs que foram descartadas durante a análise automatizada realizada pelo programa.

Além do script extraiURLs.py, este repositório contém: (1) Uma pasta intitulada "Decisoes", que contém uma amostra de base de processos que o programa é capaz de ler; (2) Um arquivo intitulado "URLs.xlsx", resultado da execução do programa sobre a base contida em "Decisoes"; (3) Um arquivo de descarte intitulado "descarte.xlsx", também resultado da execução do programa sobre a base contida em "Decisoes".

Todo o código do script extraiURLs.py foi escrito por mim.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Extração de URLs de processos jurídicos

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
Decisoes		Decisoes
README.md		README.md
URLs.xlsx		URLs.xlsx
descarte.xlsx		descarte.xlsx
extraiURLs.py		extraiURLs.py

LF-G/Extracao-URLs-processos

Folders and files

Latest commit

History

Repository files navigation

Extração de URLs de processos jurídicos

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages