-
Notifications
You must be signed in to change notification settings - Fork 1
Installation Kitodo.Presentation mit DFG Viewer und OCR On Demand als Beispielanwendung
- Grundinstallation und Systemvoraussetzungen
- Installation der Erweiterungen: (eine Option wählen)
2a. Installation Kitodo.Presentation
2b. Installation Kitodo.Presentation mit DFG Viewer als Beispielanwendung
2c. Installation Kitodo.Presentation mit DFG Viewer und OCR-On-Demand als Beispielanwendung
TODO:
1 package suggestions were added by new dependencies, use `composer suggest` to see details. Package flow/jsonpath is abandoned, you should avoid using it. Use softcreatr/jsonpath instead.
Im Folgenden wird die Installation der TYPO3-Extension DFG-Viewer mit OCR-On-Demand Funktionalität gezeigt.
cd /var/www/dfgviewer
composer config platform.php 7.4
apt install jq
jq '.repositories += [{"type": "git", "url": "https://github.com/UB-Mannheim/dfg-viewer.git" }, {"type": "git", "url": "https://github.com/UB-Mannheim/kitodo-presentation.git"}, {"type": "git", "url": "https://github.com/UB-Mannheim/ubma_digitalcollections.git" }] | .require += {"ub-mannheim/dfgviewer": "dev-6.x-ocr"} | . += {"minimum-stability": "dev"}' composer.json > composer-edit.json
mv composer.json composer.json.bak
mv composer-edit.json composer.json
composer update
vendor/bin/typo3 extensionmanager:extension:install dlf
vendor/bin/typo3 extensionmanager:extension:install dfgviewer
chown -R www-data:www-data .
experimentell: Für PHP 8.2 muss
composer config platform.php 7.4
durchcomposer config platform.php 8.2
ersetzt werden.
PHP 8.2 wird erst ab TYPO3 v11 unterstützt.
Während der Installation werden drei Seiten erstellt: Die Stammseite, der Konfigurations-Ordner und die Hauptseite des Viewers. Nach einem Reload sollte nun unter Web -> Page der Seitenbaum "DFG Viewer" mit der Seite "Viewer" vorhanden sein.
Einige Einstellungen müssen über die Kommandozeile gesetzt werden:
cd /var/www/dfgviewer
# TODO: muss systemLocale wirklich gesetzt werden?
vendor/bin/typo3cms configuration:set SYS/systemLocale en_US.UTF-8
vendor/bin/typo3cms configuration:set SYS/fileCreateMask 0660
vendor/bin/typo3cms configuration:set SYS/folderCreateMask 2770
vendor/bin/typo3cms configuration:set FE/pageNotFoundOnCHashError 0
vendor/bin/typo3cms configuration:set FE/cacheHash/requireCacheHashPresenceParameters '["tx_dlf[id]", "set[mets]"]' --json
Falls der DFG-Viewer in einer neuen TYPO3 Instanz installiert wird sollten die IDs bereits korrekt gesetzt sein. Ansonsten könnten diese aber falsch gesetzt sein. Ist das der Fall müssen die ID Konstanten des DFG-Viewers angepasst werden:
- Zunächst muss man die UID der Seite herausfinden. Diese findet man unter: Web -> Template -> DFG Viewer -> Right-Click on Viewer -> Info
- Die UID muss man sich nun kopieren bzw. merken.
- Nun muss man in die Einstellungen für den DFG-Viewer. Diese findet man unter: DFG Viewer -> Constant Editor (im Drop-Down-Menü (links/mittig) auswählbar) -> Category: PLUGIN.TX_DFGVIEWER
- Unter der Einstellung config.kitodoPageView muss nun in dem vorgesehenen Feld die UID eingetragen werden.
Im Backend unter Web -> Page -> DFG-Viewer auf den Button "+ Content" klicken und ein HTML Objekt hinzufügen. Anschließend muss folgender Code eintragen werden:
<div class="abstract">
<form method="get" action="index.php">
<div>
<label for="mets">Fügen Sie hier den Link zu Ihrer <acronym title="(engl.) metadata encoding and transmission standard; (dt.) Metadatenkodierungs- und -übertragungsstandard">METS</acronym>-Datei bzw. <acronym title="(engl.) open archives initiative; (dt.) Initiative für freien Datenaustausch">OAI</acronym>-Schnittstelle ein:</label> <br/>
<input type="hidden" name = "id" value = "2">
<input type="text" class="url" name="tx_dlf[id]" value="" required="true" pattern="[0-9a-zA-Z].*" placeholder="https://digi.bib.uni-mannheim.de/fileadmin/digi/1652998276/1652998276.xml"/> <br/>
<input type="hidden" name="no_cache" value="1" />
<input type="reset">
<input type="submit" class="submit" value="Demonstrator aufrufen!" />
</div>
</form>
</div>
Wobei ggfs. die ID anhand der UID angepasst werden muss.
Im Backend Web -> Page -> DFG-Viewer -> Viewer -> Eigenschaften bearbeiten -> Resources
- Die TypoScript Configuration um die Extension dfgviewer aus dem rechten Feld ergänzen
- Die Page TSConfig um die Zeile
TCEMAIN.permissions.groupid = UID
ergänzen, wobei UID die ID aus dem vorherigen Schritt ist. - Speichern
Im Backend unter Admin Tools -> Settings -> Extension Configuration -> dlf lassen sich Einstellungen zu Kitodo.Presentation bearbeiten. Unter dem Tab Fulltextocr müssen nun alle Einstellungen überprüft und ggfs. angepasst werden.
Beispielsweise:
- fulltextocr.fulltextFolder = fileadmin/fulltextFolder
- fulltextocr.fulltextTempFolder = fileadmin/_temp_/fulltextTempFolder
- fulltextocr.fulltextImagesFolder = fileadmin/_temp_/imagesTempFolder
- fulltextocr.ocrPlaceholder = true / Haken setzen
- fulltextocr.ocrLock = true / Haken setzen
cd /var/www/dfgviewer/public/fileadmin
mkdir -pv fulltextFolder
mkdir -pv _temp_/fulltextTempFolder
mkdir -pv _temp_/imagesTempFolder
mkdir -pv _temp_/ocrTempFolder/fulltext
mkdir -pv _temp_/ocrTempFolder/images
mkdir -pv _temp_/ocrTempFolder/lock
chown -R .
sudo apt install tesseract
Unter Ubunutu 20.04 wird aktuell noch die veraltete Version 4 gelistet. Um die neuste Version zu installieren, muss folgendes Repo hinzugefügt werden: sudo add-apt-repository ppa:alex-p/tesseract-ocr5
.
Um gute OCR Ergebnisse mit historischen Drucken zu erreichen, empfiehlt es sich ein dafür spezialisiertes Modell zu installieren. Aktuelle Modelle findet man bei der Universität Mannheim. Diese legt man unter /usr/share/tesseract-ocr/5/tessdata/
ab.
cd /usr/share/tesseract-ocr/5/tessdata/
wget https://ub-backup.bib.uni-mannheim.de/~stweil/tesstrain/frak2021/tessdata_fast/frak2021_1.069.traineddata
Mit tesseract --list-langs
kann geprüft werden, welche Modelle vorhanden sind.
Der Aufruf folgender Seite http://localhost/index.php?id=2&tx_dlf%5Bpage%5D=1&tx_dlf%5Bdouble%5D=0&tx_dlf%5Bid%5D=https%3A%2F%2Fdigital.slub-dresden.de%2Foai%2F%3Fverb%3DGetRecord%26metadataPrefix%3Dmets%26identifier%3Doai%3Ade%3Aslub-dresden%3Adb%3Aid-263566811&tx_dlf%5Bpagegrid%5D=1&cHash=3deb716062d5ea61c9640e5c5c5711dd sollte die Übersicht eines Digitalisates der SLUB Dresden öffnen. (Ggfs. muss die ID im Link angepasst werden und auf die UID des Viewers gesetzt werden.)
Weitere Information und Beispiele findet man hier.
Die Stammseite http://localhost/index.php?id=1 aufrufen und im Eingabefeld den Link zu einer Mets Datei eingeben.
- Volltext vorhanden: https://digi.bib.uni-mannheim.de/fileadmin/digi/1652998276/1652998276.xml
- Volltext nicht vorhanden: https://digi.bib.uni-mannheim.de/fileadmin/vl/ubmaosi/59087/59087.xml
Um die Volltexterzeugung zu testen, benötigt man ein Dokument ohne vorhandenen Volltext. Wird so ein Dokument im DFG-Viewer dargestellt, werden zwei zusätzliche Buttons angezeigt, mit denen man OCR für die aktuelle Seite oder das ganze Buch erstellen kann. Nach einem Reload der Seite sollte der Volltext vorhanden sein. Sollte er nicht angezeigt werden, kann man nachsehen, ob er im Verzeichnis /var/www/dfgviewer/public/fileadmin/fulltextFolder/*URN-PATH*/*OCR-Engine*/*filename.xml*/
angelegt wurde.
METS-Dateien für den Test der OCR-Funktionalität findet man u. a. bei den Bibliotheken, die Kitodo.Presentation verwenden oder in dieser Sammlung.