Skip to content

Wie kann ich für meine Digitalisate Volltexte erzeugen? #13

Answered by stweil
stweil asked this question in Q&A
Discussion options

You must be logged in to vote

Der DFG-Viewer erwartet pro Seite eine Datei mit den Volltexten im Format ALTO XML. Diese Dateien können aus den Seitenbildern mit Hilfe von OCR-Software erzeugt werden. Dabei gibt es etliche Optionen, u. a. diese:

  1. OCR mit Tesseract
  2. OCR mit Kraken
  3. OCR mit OCR-D

In vielen Fällen ist die Option 1 die einfachste und schnellste Lösung, da sie einfach zu installieren und anzuwenden ist, die wenigsten Hardware-Ressourcen benötigt und trotzdem meist ausreichend gute bis sehr gute Ergebnisse erzielt.

Hier ein Beispiel, wie unter Linux Texte für einen historischen Druck erzeugt werden können:

# Hole METS-Datei.
wget https://archiv.ub.uni-marburg.de/eb/2010/0168/mets-2879.xml
# Erzeuge Verzeichni…

Replies: 1 comment

Comment options

stweil
Jan 9, 2025
Maintainer Author

You must be logged in to vote
0 replies
Answer selected by stweil
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Category
Q&A
Labels
None yet
1 participant