{"id":1499,"date":"2022-03-10T14:58:00","date_gmt":"2022-03-10T14:58:00","guid":{"rendered":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/?p=1499"},"modified":"2022-03-10T14:58:00","modified_gmt":"2022-03-10T14:58:00","slug":"volltexterkennung-im-zeitungsportal-nrw","status":"publish","type":"post","link":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/volltexterkennung-im-zeitungsportal-nrw\/","title":{"rendered":"Volltexterkennung im Zeitungsportal NRW"},"content":{"rendered":"<p><strong>von Stefanie L\u00e4pke<\/strong><\/p>\n<figure id=\"attachment_1500\" aria-describedby=\"caption-attachment-1500\" style=\"width: 801px\" class=\"wp-caption alignnone\"><a href=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung1_Laepke.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\" wp-image-1500\" src=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung1_Laepke-300x140.jpg\" alt=\"\" width=\"801\" height=\"374\" srcset=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung1_Laepke-300x140.jpg 300w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung1_Laepke-1024x479.jpg 1024w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung1_Laepke-768x359.jpg 768w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung1_Laepke-1536x718.jpg 1536w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung1_Laepke-619x290.jpg 619w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung1_Laepke.jpg 1612w\" sizes=\"auto, (max-width: 801px) 100vw, 801px\" \/><\/a><figcaption id=\"caption-attachment-1500\" class=\"wp-caption-text\">Abbildung 1: K\u00f6lnische Zeitung vom 15.1.1831 und erkannter Volltext (Quelle: ULB Bonn \/ ULB M\u00fcnster: Zeitungsportal NRW \/ Stefanie L\u00e4pke)<\/figcaption><\/figure>\n<p style=\"text-align: justify;\">Brauchtumspflege hatte in K\u00f6ln schon immer eine gro\u00dfe Bedeutung. Wer aber z.B. wissen m\u00f6chte, wann das W\u00f6rtchen <em>Fastelovend<\/em> das erste Mal in der K\u00f6lnischen Zeitung (dem Vorl\u00e4ufer des heutigen K\u00f6lner Stadt-Anzeigers) auftrat, kann dies zuk\u00fcnftig im Zeitungsportal NRW (www.zeitpunkt.nrw) tun. Dort wird seit Anfang 2021 die Volltexterkennung historischer Zeitungen umgesetzt, sodass sukzessive im Laufe der n\u00e4chsten Jahre alle Zeitungen im Volltext erkannt und durchsuchbar sein sollen.<\/p>\n<p><!--more--><\/p>\n<p style=\"text-align: justify;\">Das Praxisprojekt begleitet den Prozess der Implementierung der Volltexterkennung in das Zeitungsportal im Zeitraum M\u00e4rz bis August 2021. Dabei werden insbesondere die Qualit\u00e4tssicherung der Texte und der Suchm\u00f6glichkeiten im Portal sowie die Kollaboration zwischen den Projektbeteiligten betreut. Ziel ist es, einen Arbeitsablauf zu etablieren, bei dem die Erstellung, das Einspielen und Pr\u00e4sentieren sowie die Qualit\u00e4tssicherung m\u00f6glichst routiniert ablaufen. M\u00f6glichen Probleme soll so bereits in der Anfangsphase begegnet werden. Stand August 2021 sind ca. 450.000 Seiten mit OCR erkannt und es werden sukzessive weitere erkannt. Bislang ist die Erkennungsgenauigkeit sehr gut, vereinzelt treten Probleme auf, insbesondere wenn das Original in einem schlechten Zustand ist.<\/p>\n<p style=\"text-align: justify;\">Neben der Erkennungsgenauigkeit spielen auch die M\u00f6glichkeiten der Suche eine Rolle. Aktuell befindet sich die Volltextsuche noch in einer beta-Phase, es wurde aber entschieden, die Volltexte dennoch jetzt schon bereitzustellen. So sind aktuell Suchen auf Ebene der Zeitungstitel und der Jahrg\u00e4nge m\u00f6glich, die Suchergebnisse werden als Liste mit Hervorhebung im Bild angezeigt:<\/p>\n<figure id=\"attachment_1501\" aria-describedby=\"caption-attachment-1501\" style=\"width: 799px\" class=\"wp-caption alignnone\"><a href=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung2_Laepke.png\"><img loading=\"lazy\" decoding=\"async\" class=\" wp-image-1501\" src=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung2_Laepke-300x116.png\" alt=\"\" width=\"799\" height=\"309\" srcset=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung2_Laepke-300x116.png 300w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung2_Laepke-1024x397.png 1024w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung2_Laepke-768x298.png 768w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung2_Laepke-619x240.png 619w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung2_Laepke.png 1387w\" sizes=\"auto, (max-width: 799px) 100vw, 799px\" \/><\/a><figcaption id=\"caption-attachment-1501\" class=\"wp-caption-text\">Abbildung 2: Suchergebnis \u201eFastelovend\u201c in der K\u00f6lnischen Zeitung (Quelle: ULB Bonn \/ ULB M\u00fcnster: Zeitungsportal NRW, K\u00f6lnische Zeitung 15.1.1831)<\/figcaption><\/figure>\n<p style=\"text-align: justify;\">Aus der Ansicht der Suchergebnisse kann in den Viewer gewechselt werden, wo das Suchergebnis ebenfalls farbig im Bild hervorgehoben wird. Im Viewer kann ebenfalls direkt gesucht werden. Es ist auch m\u00f6glich, direkt im Viewer in der Ausgabe zu suchen, dann wird das Ergebnis ebenfalls im Bild hervorgehoben. Zuk\u00fcnftig werden die Suchfunktionen im Portal \u00fcberarbeitet und erweitert.<\/p>\n<figure id=\"attachment_1502\" aria-describedby=\"caption-attachment-1502\" style=\"width: 800px\" class=\"wp-caption alignnone\"><a href=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung3_Laepke.png\"><img loading=\"lazy\" decoding=\"async\" class=\" wp-image-1502\" src=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung3_Laepke-300x147.png\" alt=\"\" width=\"800\" height=\"392\" srcset=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung3_Laepke-300x147.png 300w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung3_Laepke-1024x502.png 1024w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung3_Laepke-768x377.png 768w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung3_Laepke-619x303.png 619w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung3_Laepke.png 1387w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><\/a><figcaption id=\"caption-attachment-1502\" class=\"wp-caption-text\">Abbildung 3: Darstellung des Suchergebnisses im Viewer (Quelle: ULB Bonn \/ ULB M\u00fcnster: Zeitungsportal NRW, K\u00f6lnische Zeitung 15.1.1831)<\/figcaption><\/figure>\n<p style=\"text-align: justify;\">Automatisch erstellter Volltext ist immer mit Vorsicht zu genie\u00dfen, da er trotz der guten Erkennung immer noch Fehler aufweisen kann, die beispielsweise im Rahmen linguistischer Untersuchungen eine entscheidende Rolle spielen k\u00f6nnen. Daher wurde im Portal die M\u00f6glichkeit geschaffen, den Volltext als txt-Datei herunterzuladen, sodass direkt ersichtlich ist, wie gut der Volltext der jeweiligen Ausgabe ist und ob dieser f\u00fcr die eigene Fragestellung nutzbar ist.\u00a0 Auch der Download der ALTO-XML-Datei z.B. f\u00fcr die Nutzung im Bereich der Digital Humanities ist m\u00f6glich. Eine durchsuchbare PDF sowie die reine Bilddatei k\u00f6nnen ebenfalls heruntergeladen werden. F\u00fcr Projekte sollen in K\u00fcrze auf Anfrage auch gro\u00dfe Datenmengen zur Verf\u00fcgung gestellt werden.<\/p>\n<figure id=\"attachment_1503\" aria-describedby=\"caption-attachment-1503\" style=\"width: 800px\" class=\"wp-caption alignnone\"><a href=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung4-Laepke.png\"><img loading=\"lazy\" decoding=\"async\" class=\" wp-image-1503\" src=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung4-Laepke-300x126.png\" alt=\"\" width=\"800\" height=\"336\" srcset=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung4-Laepke-300x126.png 300w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung4-Laepke-1024x430.png 1024w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung4-Laepke-768x322.png 768w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung4-Laepke-1536x645.png 1536w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung4-Laepke-2048x859.png 2048w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2022\/02\/Abbildung4-Laepke-619x260.png 619w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><\/a><figcaption id=\"caption-attachment-1503\" class=\"wp-caption-text\">Abbildung 4: Download des Volltextes als txt-Datei (Quelle: ULB Bonn \/ ULB M\u00fcnster: Zeitungsportal NRW, Download-Link K\u00f6lnische Zeitung 15.1.1831)<\/figcaption><\/figure>\n<p style=\"text-align: justify;\">Bei perspektivisch \u00fcber 600.000 Zeitungstiteln mit ca. 15 Mio. Seiten, erschienen zwischen 1743 und 1945, gibt es einige Schwierigkeiten, die bei der Volltexterstellung (noch) auftreten k\u00f6nnen. Zum Gl\u00fcck ist K\u00f6lsch f\u00fcr die von uns ausgew\u00e4hlte OCR-Software Transkribus kein Problem und wir k\u00f6nnen nun <em>l\u00f6stich<\/em> nach karnevalesken Fundst\u00fccken in nordrhein-westf\u00e4lischen Zeitungen suchen. In diesem Sinne: Alaaf! (589 Treffer).<\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\">Projektzeitraum: M\u00e4rz 2021 bis August 2021<br \/>\nProjektbetreuer*in: Dr. Andreas Weber<br \/>\nKontakt: stefanie.laepke@ulb.uni-bonn.de<\/p>\n","protected":false},"excerpt":{"rendered":"<p>von Stefanie L\u00e4pke Brauchtumspflege hatte in K\u00f6ln schon immer eine gro\u00dfe Bedeutung. Wer aber z.B. wissen m\u00f6chte, wann das W\u00f6rtchen Fastelovend das erste Mal in der K\u00f6lnischen Zeitung (dem Vorl\u00e4ufer des heutigen K\u00f6lner Stadt-Anzeigers) auftrat, kann dies zuk\u00fcnftig im Zeitungsportal NRW (www.zeitpunkt.nrw) tun. Dort wird seit Anfang 2021 die Volltexterkennung historischer Zeitungen umgesetzt, sodass sukzessive im Laufe der n\u00e4chsten Jahre alle Zeitungen im Volltext erkannt und durchsuchbar sein sollen.<\/p>\n","protected":false},"author":3,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"ppma_author":[72],"class_list":["post-1499","post","type-post","status-publish","format-standard","hentry","category-uncategorized"],"authors":[{"term_id":72,"user_id":3,"is_guest":0,"slug":"seitz","display_name":"Christian Seitz","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/e1bdb5349ee9992175a4036266ff9a3b948338150a8e374e357da3eec87aea0e?s=96&d=blank&r=g","0":null,"1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/posts\/1499","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/comments?post=1499"}],"version-history":[{"count":5,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/posts\/1499\/revisions"}],"predecessor-version":[{"id":1553,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/posts\/1499\/revisions\/1553"}],"wp:attachment":[{"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/media?parent=1499"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/categories?post=1499"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/tags?post=1499"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/ppma_author?post=1499"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}