Python-Skript zum Finden von Fehlern in der Bibliographie. Insbesondere werden fehlerhafte Autoren und fehlende Titel erkannt.
Mit diesem Skript können alle XML-Dateien eines Ordners überprüft werden. Dieser Ordner (directory) wird im Skript angegeben. Mögliche Ordner:
- entry
- det
- res
- au
- ae
- ae_se
Das Skript geht davon aus, dass alle XML-Dateien valide sind. Gibt es Probleme beim Lesen einer Datei, wird der Dateiname in der Konsole ausgegeben.
Nach der Überprüfung werden drei TSV-Dateien erstellt, die über mögliche Fehler informieren.
- {entry|det|...}_Entries.tsv
- Vollständige Liste der Entries.
- Spalten: ID, Autor, Titel
- {entry|det|...}_Fehlende_Titel.tsv
- Entries, die keinen Titel besitzen.
- Spalten: ID, Autor
- {entry|det|...}_Falscher_Autor.tsv
- Entries, bei denen der Autor vermutlich falsch ist. Dies ist zum Einen der Fall, wenn es in einem vorherigen Eintrag einen Autor gibt, aber nicht in diesem. Zum Anderen, wenn der Autor dieses Eintrags in alphabetischer Reihenfolger vor dem Autor des vorherigen Eintrags steht.
- Spalten: ID, Autor, Vorheriger Autor ID, Vorheriger Autor