Extraction de structure logique à partir de fichiers XML générés par ABBY FineReader (http://fr7.abbyy.com/FineReader_xml/FineReader10-schema-v1.xml) contenant les transcriptions des volumes des Ouvriers des Deux Mondes.
Le script nécessite l'installation des libraries python 3.* suivantes (de préférence dans un environnement virtuel) :
bs4
beautifulsoup4=>4.6.3
lxml=>4.2.5
termcolor=>1.1.0
StringDist=>1.0.9
Le script transforme un seul fichier XML à la fois.
~$ python3 main.py -i abbyy-file.xml
un fichier abbyy-file_out.xml et un fichier abby-file_guard.xml seront créés dans le même répertoire que le fichier d'entrée.
~$ python3 main.py -i abby-file.xml -o filename
un fichier filename_out.xml et un fichier filename_guard.xml seront créés à l'emplacement indiqué, par rapport à xml2txt.py.