Volltexterkennung im Zeitungsportal NRW

von Stefanie Läpke

Abbildung 1: Kölnische Zeitung vom 15.1.1831 und erkannter Volltext (Quelle: ULB Bonn / ULB Münster: Zeitungsportal NRW / Stefanie Läpke)

Brauchtumspflege hatte in Köln schon immer eine große Bedeutung. Wer aber z.B. wissen möchte, wann das Wörtchen Fastelovend das erste Mal in der Kölnischen Zeitung (dem Vorläufer des heutigen Kölner Stadt-Anzeigers) auftrat, kann dies zukünftig im Zeitungsportal NRW (www.zeitpunkt.nrw) tun. Dort wird seit Anfang 2021 die Volltexterkennung historischer Zeitungen umgesetzt, sodass sukzessive im Laufe der nächsten Jahre alle Zeitungen im Volltext erkannt und durchsuchbar sein sollen.

Das Praxisprojekt begleitet den Prozess der Implementierung der Volltexterkennung in das Zeitungsportal im Zeitraum März bis August 2021. Dabei werden insbesondere die Qualitätssicherung der Texte und der Suchmöglichkeiten im Portal sowie die Kollaboration zwischen den Projektbeteiligten betreut. Ziel ist es, einen Arbeitsablauf zu etablieren, bei dem die Erstellung, das Einspielen und Präsentieren sowie die Qualitätssicherung möglichst routiniert ablaufen. Möglichen Probleme soll so bereits in der Anfangsphase begegnet werden. Stand August 2021 sind ca. 450.000 Seiten mit OCR erkannt und es werden sukzessive weitere erkannt. Bislang ist die Erkennungsgenauigkeit sehr gut, vereinzelt treten Probleme auf, insbesondere wenn das Original in einem schlechten Zustand ist.

Neben der Erkennungsgenauigkeit spielen auch die Möglichkeiten der Suche eine Rolle. Aktuell befindet sich die Volltextsuche noch in einer beta-Phase, es wurde aber entschieden, die Volltexte dennoch jetzt schon bereitzustellen. So sind aktuell Suchen auf Ebene der Zeitungstitel und der Jahrgänge möglich, die Suchergebnisse werden als Liste mit Hervorhebung im Bild angezeigt:

Abbildung 2: Suchergebnis „Fastelovend“ in der Kölnischen Zeitung (Quelle: ULB Bonn / ULB Münster: Zeitungsportal NRW, Kölnische Zeitung 15.1.1831)

Aus der Ansicht der Suchergebnisse kann in den Viewer gewechselt werden, wo das Suchergebnis ebenfalls farbig im Bild hervorgehoben wird. Im Viewer kann ebenfalls direkt gesucht werden. Es ist auch möglich, direkt im Viewer in der Ausgabe zu suchen, dann wird das Ergebnis ebenfalls im Bild hervorgehoben. Zukünftig werden die Suchfunktionen im Portal überarbeitet und erweitert.

Abbildung 3: Darstellung des Suchergebnisses im Viewer (Quelle: ULB Bonn / ULB Münster: Zeitungsportal NRW, Kölnische Zeitung 15.1.1831)

Automatisch erstellter Volltext ist immer mit Vorsicht zu genießen, da er trotz der guten Erkennung immer noch Fehler aufweisen kann, die beispielsweise im Rahmen linguistischer Untersuchungen eine entscheidende Rolle spielen können. Daher wurde im Portal die Möglichkeit geschaffen, den Volltext als txt-Datei herunterzuladen, sodass direkt ersichtlich ist, wie gut der Volltext der jeweiligen Ausgabe ist und ob dieser für die eigene Fragestellung nutzbar ist.  Auch der Download der ALTO-XML-Datei z.B. für die Nutzung im Bereich der Digital Humanities ist möglich. Eine durchsuchbare PDF sowie die reine Bilddatei können ebenfalls heruntergeladen werden. Für Projekte sollen in Kürze auf Anfrage auch große Datenmengen zur Verfügung gestellt werden.

Abbildung 4: Download des Volltextes als txt-Datei (Quelle: ULB Bonn / ULB Münster: Zeitungsportal NRW, Download-Link Kölnische Zeitung 15.1.1831)

Bei perspektivisch über 600.000 Zeitungstiteln mit ca. 15 Mio. Seiten, erschienen zwischen 1743 und 1945, gibt es einige Schwierigkeiten, die bei der Volltexterstellung (noch) auftreten können. Zum Glück ist Kölsch für die von uns ausgewählte OCR-Software Transkribus kein Problem und wir können nun löstich nach karnevalesken Fundstücken in nordrhein-westfälischen Zeitungen suchen. In diesem Sinne: Alaaf! (589 Treffer).

 

Projektzeitraum: März 2021 bis August 2021
Projektbetreuer*in: Dr. Andreas Weber
Kontakt: stefanie.laepke@ulb.uni-bonn.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert