-
Dies ist ein typischer Anwendungsfall für viele Archive und Bibliotheken, die bereits digitalisieren: Es gibt bereits digitalisierte Medien, und es werden auch weitere noch erzeugt. Diese Medien lassen sich im DFG-Viewer anzeigen, haben aber noch keine Volltexte, die beispielsweise eine Volltextsuche ermöglichen. |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment
-
Der DFG-Viewer erwartet pro Seite eine Datei mit den Volltexten im Format ALTO XML. Diese Dateien können aus den Seitenbildern mit Hilfe von OCR-Software erzeugt werden. Dabei gibt es etliche Optionen, u. a. diese:
In vielen Fällen ist die Option 1 die einfachste und schnellste Lösung, da sie einfach zu installieren und anzuwenden ist, die wenigsten Hardware-Ressourcen benötigt und trotzdem meist ausreichend gute bis sehr gute Ergebnisse erzielt. Hier ein Beispiel, wie unter Linux Texte für einen historischen Druck erzeugt werden können:
Dieser Prozess dauert auf einem Linux-Server rund eine Minute, auf einem modernen Notebook weniger als eine Stunde. Die erzeugten ALTO-Dateien Es ist möglich, die OCR-Ergebnisse durch ein Nachtraining zu verbessern. Dafür, aber auch für die Texterkennung bei handschriftlichen Texten, eignet sich Option 2 besser. Die METS-Datei wird dabei in eScriptorium verwendet, um alle Seitenbilder zu importieren. Optional importiert man auch die ALTO-Dateien, die mit Tesseract erzeugt wurden. Dann korrigiert man ein paar Seiten, trainiert damit ein verbessertes OCR-Modell und erzeugt mit dem verbesserten Modell neue ALTO-Dateien. Für das Beispiel oben reichten 15 nachkorrigierte Seiten als Trainingsmaterial für eine bessere Texterkennung. OCR-D (Option 3) verwendet im einfachsten Fall ebenfalls Tesseract und erzeugt dann auch weitgehend identische Ergebnisse. Es erlaubt darüber hinaus vielfältige Anpassungen des OCR-Prozesses, was aber für die meisten Anwender zu komplex ist und nicht notwendigerweise bessere Ergebnisse erzielt. Die Installation ist wesentlich aufwendiger als bei Option 1, der Ressourcenbedarf viel höher. |
Beta Was this translation helpful? Give feedback.
Der DFG-Viewer erwartet pro Seite eine Datei mit den Volltexten im Format ALTO XML. Diese Dateien können aus den Seitenbildern mit Hilfe von OCR-Software erzeugt werden. Dabei gibt es etliche Optionen, u. a. diese:
In vielen Fällen ist die Option 1 die einfachste und schnellste Lösung, da sie einfach zu installieren und anzuwenden ist, die wenigsten Hardware-Ressourcen benötigt und trotzdem meist ausreichend gute bis sehr gute Ergebnisse erzielt.
Hier ein Beispiel, wie unter Linux Texte für einen historischen Druck erzeugt werden können: