Wie kann ich für meine Digitalisate Volltexte erzeugen? #13

stweil · 2025-01-09T13:05:33Z

stweil
Jan 9, 2025
Maintainer

Dies ist ein typischer Anwendungsfall für viele Archive und Bibliotheken, die bereits digitalisieren:

Es gibt bereits digitalisierte Medien, und es werden auch weitere noch erzeugt. Diese Medien lassen sich im DFG-Viewer anzeigen, haben aber noch keine Volltexte, die beispielsweise eine Volltextsuche ermöglichen.

Answered by stweil

Jan 9, 2025

Der DFG-Viewer erwartet pro Seite eine Datei mit den Volltexten im Format ALTO XML. Diese Dateien können aus den Seitenbildern mit Hilfe von OCR-Software erzeugt werden. Dabei gibt es etliche Optionen, u. a. diese:

OCR mit Tesseract
OCR mit Kraken
OCR mit OCR-D

In vielen Fällen ist die Option 1 die einfachste und schnellste Lösung, da sie einfach zu installieren und anzuwenden ist, die wenigsten Hardware-Ressourcen benötigt und trotzdem meist ausreichend gute bis sehr gute Ergebnisse erzielt.

Hier ein Beispiel, wie unter Linux Texte für einen historischen Druck erzeugt werden können:

# Hole METS-Datei.
wget https://archiv.ub.uni-marburg.de/eb/2010/0168/mets-2879.xml
# Erzeuge Verzeichni…

View full answer

stweil · 2025-01-09T13:26:17Z

stweil
Jan 9, 2025
Maintainer Author

Der DFG-Viewer erwartet pro Seite eine Datei mit den Volltexten im Format ALTO XML. Diese Dateien können aus den Seitenbildern mit Hilfe von OCR-Software erzeugt werden. Dabei gibt es etliche Optionen, u. a. diese:

OCR mit Tesseract
OCR mit Kraken
OCR mit OCR-D

In vielen Fällen ist die Option 1 die einfachste und schnellste Lösung, da sie einfach zu installieren und anzuwenden ist, die wenigsten Hardware-Ressourcen benötigt und trotzdem meist ausreichend gute bis sehr gute Ergebnisse erzielt.

Hier ein Beispiel, wie unter Linux Texte für einen historischen Druck erzeugt werden können:

# Hole METS-Datei.
wget https://archiv.ub.uni-marburg.de/eb/2010/0168/mets-2879.xml
# Erzeuge Verzeichnis für die OCR-Ergebnisse.
mkdir ocr
# Erzeuge die OCR.
grep http.*def mets-2879.xml | sed s/.*http/http/ | sed 's/jpg".*/jpg/' | \
  nohup nice time parallel -k time tesseract {} ocr/{/.} -l ubma/german_print_20 alto txt | \
  tee ocr/ocr.log

Dieser Prozess dauert auf einem Linux-Server rund eine Minute, auf einem modernen Notebook weniger als eine Stunde.

Die erzeugten ALTO-Dateien ocr/*.xml können danach im Präsentationssystem eingespielt, in die METS-Datei eingetragen und angezeigt werden, siehe Demo für das Beispiel aus dem 18. Jahrhundert. Weitere Beispiele: 16. Jahrhundert (351 Seiten, 51 Sekunden Verarbeitungszeit), 17. Jahrhundert (898 Seiten, 73 Sekunden Verarbeitungszeit)

Es ist möglich, die OCR-Ergebnisse durch ein Nachtraining zu verbessern. Dafür, aber auch für die Texterkennung bei handschriftlichen Texten, eignet sich Option 2 besser. Die METS-Datei wird dabei in eScriptorium verwendet, um alle Seitenbilder zu importieren. Optional importiert man auch die ALTO-Dateien, die mit Tesseract erzeugt wurden. Dann korrigiert man ein paar Seiten, trainiert damit ein verbessertes OCR-Modell und erzeugt mit dem verbesserten Modell neue ALTO-Dateien. Für das Beispiel oben reichten 15 nachkorrigierte Seiten als Trainingsmaterial für eine bessere Texterkennung.

OCR-D (Option 3) verwendet im einfachsten Fall ebenfalls Tesseract und erzeugt dann auch weitgehend identische Ergebnisse. Es erlaubt darüber hinaus vielfältige Anpassungen des OCR-Prozesses, was aber für die meisten Anwender zu komplex ist und nicht notwendigerweise bessere Ergebnisse erzielt. Die Installation ist wesentlich aufwendiger als bei Option 1, der Ressourcenbedarf viel höher.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Wie kann ich für meine Digitalisate Volltexte erzeugen? #13

{{title}}

Replies: 1 comment

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Select a reply

Wie kann ich für meine Digitalisate Volltexte erzeugen? #13

stweil Jan 9, 2025 Maintainer

Replies: 1 comment

stweil Jan 9, 2025 Maintainer Author

stweil
Jan 9, 2025
Maintainer

stweil
Jan 9, 2025
Maintainer Author