Semantische Anreicherung von Lexikonartikeln aus RDK Labor mit normierter Terminologie

von Christiane Elster

Abbildung 1: Startseite von RDK Labor (Quelle: https://www.rdklabor.de/)

Die Online-Plattform RDK Labor (https://www.rdklabor.de) ist ein mit Semantic MediaWiki betriebenes Wiki, das aus dem 1927 gegründeten Reallexikon zur Deutschen Kunstgeschichte (RDK) hervorging. RDK Labor soll im Internet besser auffindbar werden und von großen Datensammlungen wie den Wikimedia-Projekten, Bibliothekskatalogen und Bilddatenbanken aus verlinkt sein. Das Ziel des am Zentralinstitut für Kunstgeschichte in München angesiedelten Praxisprojekts bestand darin, eine Datengrundlage für eine semantische Verknüpfung der Online-Plattform im Netz zu schaffen. Dies geschah mit Hilfe eines Abgleichs („Reconciling“) einer repräsentativen Testmenge von 250 Lemmata aus RDK Labor mit Wikidata und der Gemeinsamen Normdatei (GND). Dabei wurde mit der Software OpenRefine gearbeitet, einem Tool zur Bereinigung, Aufbereitung und Anreicherung von Daten.

Hintergrund
„Semantic Web“ und „Named Entity Linking“ (Entitätenverknüpfung) stehen u.a. für die Vernetzung von Wissensbeständen im Internet auf der Basis mitgeführter Identifier. Dabei spielen normierte, kontrollierte Vokabulare und aus ihnen generierte Wissensgraphen eine wesentliche Rolle. Eine erfolgreiche und qualitativ hochwertige Entitätenverknüpfung hängt im Wesentlichen davon ab, wie viele der erkannten Entitäten korrespondierenden Normdatensätzen zugewiesen werden können (Abdeckung) und ob lexikalische Ambiguitäten überwunden werden können, um die Disambiguierung und eine korrekte Identifikation der Entität zu gewährleisten (Verknüpfungsqualität).

Projektdurchführung
Das Projekt gliederte sich in vier Phasen: Im Anschluss an die Projektinitalisierung erfolgte das „Reconciling“ der Testmenge mit Wikidata und der GND. Wikidata ist die sprachübergreifende Normdatei der Wikimedia-Projekte und umfasst 95 Mio. Datenobjekte. Die GND ist ein deutschsprachiges Normvokabular, das durch die Deutsche Nationalbibliothek und die Bibliotheksverbünde kooperativ geführt wird. Sie besteht derzeit aus knapp neun Mio. Einträgen. Die anschließende Phase der Auswertung zielte auf die Ermittlung semantischer Schnittmengen und lotete Möglichkeiten aus, RDK Labor im Internet durch semantische Verknüpfungen sichtbarer zu machen. Die Abschlussphase diente vor allem der Niederschrift des Projektberichts.

Beim „Reconciling“ der Testmenge in OpenRefine wurden die Matchings entsprechend der Art der Beziehung zwischen RDK Labor-Lemmata und Wikidata-Items bzw. GND-Sätzen differenziert und in verschiedenen Spalten abgelegt. Dabei wurden grundlegend zwei Beziehungstypen unterschieden: „Same as“-Beziehungen bestehen, wenn die Begriffe der Normdateien den RDK Labor-Lemmata semantisch vollständig entsprechen, d.h. wenn die Lemmata 1:1 abgebildet werden. Um Ähnlichkeitsbeziehungen handelt es sich dagegen, wenn sich nur semantische Überschneidungen zwischen RDK Labor-Lemmata und Wikidata-Items bzw. GND-Sätzen ergeben. Dabei können die Begriffe der Normvokabulare semantisch weiter gefasst sein als die Lemmata – in diesem Fall handelt es sich um „broader terms“ (b.t.). Andere sind semantisch enger gefasst, man kann bei ihnen daher von „narrower terms“ (n.t.) sprechen. Die Übergänge zwischen den verschiedenen Kategorien sind allerdings fließend.

Abbildung 2: OpenRefine-Projekt „RDK Labor“ mit Facettierung der Testmenge (Quelle: Christiane Elster)

Projektergebnisse
Die Auswertung des „Reconcilings“ orientierte sich an zwei zentralen Größen, der Abdeckung und der semantischen Qualität der Matchings:

Die Abdeckung als quantitativ ermittelbare Größe demonstriert, wie viele Lemmata der Testmenge mit korrespondierenden Normdatensätzen in Wikidata und der GND gematcht werden konnten. Die allgemeine Abdeckung, die Matchings aus allen Beziehungstypen einschließt, beträgt bei Wikidata 82%, bei der GND 77% (Abbildung 3). Ermittelt man die Abdeckung differenziert nach Beziehungstypen, erhält man entsprechend geringere Zahlen. Bei gut fünfzig Prozent der Test-Lemmata war ein 1:1-Matching mit Wikidata (54%) und der GND (55%) möglich. Fazit: Die Abdeckung ist bei Wikidata und der GND sehr ähnlich; die Normvokabulare Wikidata und GND gleichen sich also trotz ihrer unterschiedlichen Größe in der Abdeckung des untersuchten Korpus.

Abbildung 3: Allgemeine Abdeckungsrate in Wikidata und der GND (Quelle: Christiane Elster)

Die Qualität der semantischen Beziehung zwischen den Lemmata und den gematchten Normbegriffen ist in den ermittelten Abdeckungsraten nur sehr eingeschränkt sichtbar. Sie wird vor allem durch den grundlegenden Charakter der Normvokabulare Wikidata und GND im Vergleich zum Vokabular von RDK Labor bestimmt. Allgemeine Beobachtungen während des Matching-Prozesses zeigten, dass die GND dem Vokabular der RDK Labor-Lemmata in semantischer Hinsicht ähnlicher ist als Wikidata. Insbesondere der ikonographischen Ausrichtung von RDK Labor kommt die GND weit stärker entgegen als Wikidata.

Basierend auf den Ergebnissen der Auswertung wurden Möglichkeiten ausgelotet,  RDK Labor mit Normdaten anzureichern und mit externen Ressourcen im Internet semantisch zu verknüpfen. Dabei erscheint eine fachspezifisch ausgerichtete Erhöhung der Sichtbarkeit durch eine semantische Verknüpfung RDK Labors mit kunsthistorischen Rechercheinstrumenten vielversprechender als eine allgemeine Erhöhung der Sichtbarkeit durch Einbindung in Wikidata. Insbesondere der Kubikat, der Online-Katalog der dem Kunstbibliotheken-Fachverbund zugehörigen Bibliotheken, bietet sich für semantische Relationierungen an. Durch die Schaffung neuer normierter Suchmöglichkeiten könnte RDK Labor im Kubikat sichtbarer werden. Darüber hinaus empfiehlt sich die Einbindung RDK Labors als externe Datenquelle in den gerade in Entwicklung befindlichen Kubikat LOD. Langfristig ist eine Verlinkung von RDK Labor mit externen Bilddatenbanken erstrebenswert, um die Lemmata mit dem sie betreffenden Bildmaterial, das im Internet frei verfügbar ist, zu verknüpfen.

 

Projektzeitraum: April 2021 bis August 2021
Projektbetreuer*in: Prof. Dr. Klaus Lepsky
Kontakt: christiane.martina.elster@gmail.com

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert