Skip to content

Transformation de XML vers text pour corpus Les Ouvriers des Deux Mondes.

Notifications You must be signed in to change notification settings

TimeUs-ANR/LSE-OD2M

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

57 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LSE-OD2M

Extraction de structure logique à partir de fichiers XML générés par ABBY FineReader (http://fr7.abbyy.com/FineReader_xml/FineReader10-schema-v1.xml) contenant les transcriptions des volumes des Ouvriers des Deux Mondes.

Installation

Le script nécessite l'installation des libraries python 3.* suivantes (de préférence dans un environnement virtuel) :

  • bs4
  • beautifulsoup4=>4.6.3
  • lxml=>4.2.5
  • termcolor=>1.1.0
  • StringDist=>1.0.9

Utilisation

Le script transforme un seul fichier XML à la fois.

Exemple 1:

~$ python3 main.py -i abbyy-file.xml

un fichier abbyy-file_out.xml et un fichier abby-file_guard.xml seront créés dans le même répertoire que le fichier d'entrée.

Exemple 2:

~$ python3 main.py -i abby-file.xml -o filename

un fichier filename_out.xml et un fichier filename_guard.xml seront créés à l'emplacement indiqué, par rapport à xml2txt.py.

About

Transformation de XML vers text pour corpus Les Ouvriers des Deux Mondes.

Resources

Stars

Watchers

Forks

Packages

No packages published