PArSe è un parser del solo articolato dei progetti o disegni di legge parlamentari. Sviluppato dal Servizio dell'Informatica del Senato della Repubblica.
Per eseguire il parser:
- Assicurarsi di aver installato Python 3.11
- Checkout del progetto
git clone https://github.com/SenatoDellaRepubblica/PArSe.git && cd PArSe
- Installazione delle librerire richieste mediante pip per Python3
pip3 install -r requirements.txt
- Per eseguire l'interfaccia Web (sono necessarie delle variabili di ambiente)
ENV=development|production
SERVER_PORT=127.0.0.1
python3 parse_web.py
- Per eseguire il parser a riga di comando
python3 parse_cli.py -h
PArSe live: https://www.senato.it/japp/serv/parse/app
Per la trasformazione di documenti PArSe utilizza Antiword per i .DOC e Tika per i .DOCX.
Nel progetto non sono presenti i compilati dei due prodotti. Per Tika è necessario il runtime Java.
Senato della Repubblica - Servizio dell'Informatica
CC BY 3.0