Das Datensilo EasyDB mit flexibler Transformation öffnen

von Peter Heiss

Abbildung 1: Titelbild (Quelle: Bing Image Creator; Frei zu verwenden für private, nicht-kommerzielle Zwecke)

Daten sind – wie Bücher – in Bibliotheken überall und werden in den verschiedensten Systemen erfasst, sortiert und anderweitig verwaltet. Leider sind diese Systeme nicht immer für die Anzeige geeignet oder gar der Öffentlichkeit frei zugänglich. An der ULB Münster werden u.a. Forschungsdaten in der Software EasyDB der Firma Programmfabrik erfasst. Bedauerlicherweise ist diese Software nicht für die Anzeige der Daten oder die Weiterverwendung derselbigen in anderen Softwarelösungen geeignet. Doch wie bricht man die Unzulänglichkeit solcher Datensilos auf, ohne auf die Software selbst zu verzichten? Dieser Frage ging das beschriebene Projekt im Sommer 2023 nach.

Die ULB Münster verwaltet inzwischen in 5 EasyDB-Instanzen bis zu je 70.000 Datensätze, welche wiederum in verschiedensten Metadatenschemen vorliegen. Eine Transformation für alle Daten zu konzipieren ist also für ein kleines Team von Softwareentwickler*innen unmöglich. Um dem Problem zu begegnen wird es notwendig sein, so viel Personal wie möglich in die Lage zu versetzen, die Datentransformation gestalten zu können:

    • Welche Daten sollen wie transformiert werden?
    • Welche Information im Ausgangsformat sollen an welcher Stelle im Zielformat landen?
    • Ist eine Verarbeitung eines Datenfeldes notwendig?
    • Welches kann von dem gewünschten Zielsystem verarbeitet werden?

All diese Fragen (und mehr) müssen beantwortet werden, bevor die Transformation durchgeführt werden kann. Hier sind die Administrator*innen der EasyDB die richtigen Expert*innen, da sie die Daten und die Software kennen, sowie das Metadatenschema selbst angelegt haben. Demnach wissen sie, wie die Daten aufgebaut sind und wie sie verarbeitet werden müssen. Aus diesem Grund bietet die in diesem Projekt erarbeitete Transformationssoftware eine leichtgewichtige Konfigurationssprache an, damit sie im Self-Service angepasst werden kann.

Abbildung 2: Skizze des Transformationsprozess (Quelle: Peter Heiss)

Als das erste Zielsystem im Projekt wurde der Goobi Viewer der Firma Intranda ausgewählt. Das Diagramm in Abbildung 2 soll den Prozess der Transformation und die verwendeten Datenformate veranschaulichen, welcher implementiert wurde. Zu sehen ist, dass die Daten aus dem Ursprungssystem im JSON-Format abgefragt werden, welches einem internen Datenformat von EasyDB entspricht.

Mittels einer Konfigurationsdatei werden die Daten in ein internes Datenformat überführt. Durch ein Jinja-Template werden die Daten in das LIDO-Format transformiert, welches ein Standardformat für die Veröffentlichung von Archiv- und Museumsdaten ist. Abschließend werden die Daten in das Zielsystem importiert.

Abbildung 3: Die Softwarearchitektur als Projektergebnis (Quelle: Peter Heiss)

Im Verlauf des Projektes konnte dieser Ansatz implementiert werden. Die erstellte Softwarearchitektur kann in Abbildung 3 eingesehen werden. Dabei wurde eine starke Modularität angestrebt, um die Nachnutzung in anderen Kontexten möglichst einfach zu gestalten. Die notwendigen Schulungen der EasyDB-Administrator*innen für die Anpassung der beiden notwendigen Konfigurationsdateien wurde ebenfalls durchgeführt, sodass die Daten nun regelmäßig in den Goobi Viewer importiert und bei Änderungen im Quellsystem selbstständig angepasst werden können.

 

Projektzeitraum: März 2023 – August 2023
Projektbetreuerin: Prof. Dr. Mirjam Blümm
Kontakt: peter.heiss@uni-muenster.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert