{"id":379,"date":"2015-10-23T09:20:07","date_gmt":"2015-10-23T09:20:07","guid":{"rendered":"http:\/\/malisprojekte.web.th-koeln.de\/wordpress\/?p=379"},"modified":"2016-03-08T20:49:31","modified_gmt":"2016-03-08T20:49:31","slug":"tobias-rebholz-computergestuetzte-thesaurus-erweiterung-konzept-und-erste-umsetzungsversuche","status":"publish","type":"post","link":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/tobias-rebholz-computergestuetzte-thesaurus-erweiterung-konzept-und-erste-umsetzungsversuche\/","title":{"rendered":"Computergest\u00fctzte Thesaurus-Erweiterung Wirtschaft"},"content":{"rendered":"<h4>von Tobias Rebholz<\/h4>\n<p><a href=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/tobias-rebholz-computergestuetzte-thesaurus-erweiterung-konzept-und-erste-umsetzungsversuche\/\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-395\" src=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb1_Bloggrafik_2.jpg\" alt=\"Abb1_Bloggrafik_2\" width=\"723\" height=\"542\" srcset=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb1_Bloggrafik_2.jpg 960w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb1_Bloggrafik_2-300x225.jpg 300w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb1_Bloggrafik_2-619x464.jpg 619w\" sizes=\"auto, (max-width: 723px) 100vw, 723px\" \/><\/a><\/p>\n<p style=\"text-align: justify;\">Eine qualitativ hochwertige inhaltliche Erschlie\u00dfung mit dem hauseigenen Fachvokabular des Standard-Thesaurus Wirtschaft (STW) bildet das Fundament f\u00fcr eine erfolgreiche Recherche nach wirtschaftswissenschaftlichen Informationen in den Recherchesystemen der ZBW \u2013 Leibniz Informationszentrum Wirtschaft. Die Erschlie\u00dfung mit STW-Vokabular dient dazu, dass bei Suchanfragen alle relevanten Titel im Suchergebnis ber\u00fccksichtigt werden.<\/p>\n<p style=\"text-align: justify;\">Damit ein kontrolliertes Fachvokabular wie der STW seine Aufgaben langfristig erf\u00fcllen kann, ist eine kontinuierliche inhaltliche Weiterentwicklung elementar. An diesem Punkt setzte dieses MALIS-Projekt (Betreuer: Peter Kost\u00e4dt) an; im Rahmen des Projektes wurden Ans\u00e4tze herausgearbeitet, die es erm\u00f6glichen, computergest\u00fctzt neue Terme f\u00fcr eine Erweiterung des STW zu ermitteln.<\/p>\n<p style=\"text-align: justify;\"><!--more--><\/p>\n<p style=\"text-align: justify;\">Der Standard-Thesaurus Wirtschaft wurde unter F\u00f6rderung des Bundesministeriums f\u00fcr Wirtschaft (BMWi) in den 1990er Jahren in Zusammenarbeit mit dem HWWA (jetzt ZBW), GBI\/GENIOS und dem ifo Institut entwickelt und wird von den Konsortialpartnern seitdem zur Indexierung eingesetzt.<\/p>\n<p style=\"text-align: justify;\">Bereits in der Vergangenheit wurde der STW regelm\u00e4\u00dfig an die g\u00e4ngige Wirtschaftsterminologie angepasst und thematisch weiterentwickelt. Nach einer mehrj\u00e4hrigen, 2015 abgeschlossenen Komplett\u00fcberarbeitung bildet der STW als wirtschaftswissenschaftliches Fachvokabular den aktuellen Sprachgebrauch in dem Fachgebiet ab und ist die terminologische Basis f\u00fcr eine fachspezifische Inhaltserschlie\u00dfung der hauseigenen ZBW-Best\u00e4nde. Um diesen Status auch zuk\u00fcnftig dauerhaft garantieren zu k\u00f6nnen, wird es auch in Zukunft erforderlich sein, den STW kontinuierlich weiterzuentwickeln und an die ver\u00e4nderten Gegebenheiten in dem Wirtschaftswissenschaften anzupassen.<\/p>\n<p style=\"text-align: justify;\">Allerdings ist in der heutigen Zeit ein rein manuelles Erkennen relevanter Thesaurus-Kandidatenterme mit Blick auf maschinelle Textmining-Verfahren nicht mehr zielf\u00fchrend und praktikabel. Insbesondere vor dem Hintergrund der Neuausrichtung der ZBW zu einer forschungsbasierten Informationsinfrastruktureinrichtung mit den Forschungsschwerpunkten Medieninformatik, Web Science und Knowledge Discovery, ist es naheliegend auch im Bereich der Thesaurus-Entwicklung auf unterst\u00fctzende informationstechnische Verfahren zu setzen.<\/p>\n<p style=\"text-align: justify;\">Im Rahmen des Projektes galt es herauszufinden, wie man computergest\u00fctzt neue Kandidaten-Terme f\u00fcr die Erweiterung des STW aus vorhandenen Metadaten ermitteln kann, ohne daf\u00fcr auf aufw\u00e4ndige Textmining-Verfahren zur\u00fcckzugreifen.<\/p>\n<p style=\"text-align: justify;\">Die Grundidee einer computergest\u00fctzten Thesaurus-Erweiterung basierte auf vorangegangenen \u00dcberlegungen zur automatischen Abbildung von STW-Deskriptoren auf Autoren-Keywords, ein Verfahren, welches die ZBW zuk\u00fcnftig zur Homogenisierung ihrer Sacherschlie\u00dfung einzusetzen gedenkt.<\/p>\n<p style=\"text-align: justify;\">Die Datenquelle f\u00fcr die Ermittlung von STW-Kandidatentermen waren Titeldaten aus dem ZBW-eigenen Online-Katalog ECONIS. F\u00fcr die Kandidatenfilterung wurden hier von Kollegen des Forschungsbereiches Knowledge Discovery positive STW-Terme ermittelt und entfernt. Nach diesem Schritt blieben in den Titeln W\u00f6rter \u00fcbrig, die nicht in der eingebundenen STW-Version zu finden sind. Zur Ermittlung sinntragender Worte des Resttitels wurde im n\u00e4chsten Schritt ein Abzug aller deutsch- und englischsprachigen Wikipedia-Eintr\u00e4ge herangezogen und dieser mit den Restw\u00f6rtern in den Titeldaten abgeglichen.<\/p>\n<p style=\"text-align: justify;\">Alle gefunden Kandidaten-Terme wurden in eine Liste geschrieben und nach Frequenz in den Titeldaten sortiert. Auf diese Weise konnten mehr als 200000 Wikipedia-Terme in den Titeldaten ermittelt werden.<\/p>\n<p style=\"text-align: justify;\">Anders als bei Autoren-Keywords handelte es sich hierbei allerdings nicht ausschlie\u00dflich um \u00f6konomische Terminologie und bedurfte zus\u00e4tzlicher Filterungsprozesse.<\/p>\n<p style=\"text-align: justify;\">Die grobe qualitative Analyse der Zwischenergebnisse zeigte auf, dass die Liste eine Mischung aus verschiedenen Formen von Eigennamen (Personennamen, Ortsnamen und Institutionsnamen) enth\u00e4lt, wie auch Adverbien oder Adjektive oder Daten in Form von Jahreszahlen. Da f\u00fcr die STW-Erweiterung eindeutige fachspezifische Terme als Deskriptoren oder Nichtdeskriptoren in Frage kommen, wurde f\u00fcr die Nachbearbeitung der Liste ein mehrstufiges Filterverfahren entworfen.<\/p>\n<p style=\"text-align: justify;\">F\u00fcr die Entwicklung der Filter erfolgte darauffolgend eine tiefergehende Auswertung der Liste. Ziel war es, die anf\u00e4ngliche Liste mit Filtern um 2\/3 des urspr\u00fcnglichen Umfangs zu reduzieren. Bei der fachlichen Auswertung zeigte sich, dass es sich bei einem Gro\u00dfteil der Terme, wie bereits angenommen, um sehr allgemeine nicht fachspezifische Begriffe oder ambige Terme handelte. Um diese zu filtern, wurde die Liste zun\u00e4chst um Stoppw\u00f6rter bereinigt. Anschlie\u00dfend wurden alle aus nur einem Wort bestehenden Wikipedia-Begriffe sowie Monats- und Personennamen entfernt. Hierzu konnten u.a. umfangreiche Namens- und Stoppwortlisten aus dem Internet herangezogen werden. F\u00fcr diesen Abgleich wurde von einem am Projekt beteiligten Mitarteiter ein Programm in Java geschrieben, welches die verschiedenen Filterlisten ber\u00fccksichtigt und eine bereinigte Liste generiert, die insgesamt 63234 Kandidatenterme umfasste.<\/p>\n<figure id=\"attachment_400\" aria-describedby=\"caption-attachment-400\" style=\"width: 474px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb2_neu.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-400\" src=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb2_neu.jpg\" alt=\"Abb 1: Auszug des Filterskripts\" width=\"474\" height=\"339\" srcset=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb2_neu.jpg 1512w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb2_neu-300x214.jpg 300w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb2_neu-1024x731.jpg 1024w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb2_neu-619x442.jpg 619w\" sizes=\"auto, (max-width: 474px) 100vw, 474px\" \/><\/a><figcaption id=\"caption-attachment-400\" class=\"wp-caption-text\">Abb 1: Auszug des Filterskripts<\/figcaption><\/figure>\n<p style=\"text-align: justify;\">Bei der anschlie\u00dfenden Auswertung der gefilterten Liste fiel der Fokus auf Kandidaten mit Pluralformen. Hier pr\u00e4sentierte sich, dass es sich bei vielen Phrasen um die Pluralformen von STW-Termen handelte. Dies f\u00fchrte zu dem Schluss, dass im Rahmen der urspr\u00fcnglichen Kandidatengenerierung nicht alle STW-Terme entfernt wurden. Um die STW-Terme nachtr\u00e4glich zu ausstreichen, wurden die 63234 Kandidatenterme nochmals mit einer modifizierten Liste der STW-Begriffe abgeglichen. Vorab wurden sowohl die STW-Begriffe als auch die Kandidaten-Terme einem Stemming unterzogen. Als Basis diente hier der Porter-Stemmer-Algorithmus auf Basis des Snowball-Frameworks.<\/p>\n<p style=\"text-align: justify;\">Durch die Stammformreduktion der STW- und Kandidaten-Terme konnte bei einem danach angesto\u00dfenen Abgleich beider modifizierter Listen die Anzahl der Kandidaten nochmals signifikant reduziert werden. In einem letzten Schritt wurden alle Terme entfernt, die weniger als 20 Mal in den Titeldaten auftauchten. Durch diese Ma\u00dfnahme schrumpfte die Liste auf genau 1700 Eintr\u00e4ge, eine Anzahl von Termen, die auch f\u00fcr eine Redaktion intellektuell zu bewerten ist.<\/p>\n<figure id=\"attachment_398\" aria-describedby=\"caption-attachment-398\" style=\"width: 467px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb3_neu_1.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-398\" src=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb3_neu_1.jpg\" alt=\"Abb 2.: Auszug Stemming-Algorithmus\" width=\"467\" height=\"334\" srcset=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb3_neu_1.jpg 1512w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb3_neu_1-300x214.jpg 300w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb3_neu_1-1024x731.jpg 1024w, https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-content\/uploads\/2015\/09\/Abb3_neu_1-619x442.jpg 619w\" sizes=\"auto, (max-width: 467px) 100vw, 467px\" \/><\/a><figcaption id=\"caption-attachment-398\" class=\"wp-caption-text\">Abb 2.: Auszug Stemming-Algorithmus<\/figcaption><\/figure>\n<p style=\"text-align: justify;\">Abschlie\u00dfend ist festzuhalten, dass es ein einfaches Verfahren gibt, welches Kandidaten-Terme f\u00fcr eine Thesaurus-Erweiterung liefert. Da die eingesetzten Methoden nur eine grobe Filterung erlauben und die G\u00fcte des Verfahrens im Rahmen des Projektes nicht bestimmt werden konnte, sollte nach pers\u00f6nlicher Einsch\u00e4tzung diese Form der Kandidatengenerierung nur einen Teil eines Verfahrens darstellen. Inwiefern dieses Verfahren das Terminologie-Management in der ZBW unterst\u00fctzen kann, wird sich im Laufe der Zeit zeigen.<\/p>\n<p style=\"text-align: justify;\"><a href=\"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/tobias-rebholz\/\">Autorenprofil<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>von Tobias Rebholz Eine qualitativ hochwertige inhaltliche Erschlie\u00dfung mit dem hauseigenen Fachvokabular des Standard-Thesaurus Wirtschaft (STW) bildet das Fundament f\u00fcr eine erfolgreiche Recherche nach wirtschaftswissenschaftlichen Informationen in den Recherchesystemen der ZBW \u2013 Leibniz Informationszentrum Wirtschaft. Die Erschlie\u00dfung mit STW-Vokabular dient dazu, dass bei Suchanfragen alle relevanten Titel im Suchergebnis ber\u00fccksichtigt werden. Damit ein kontrolliertes Fachvokabular wie der STW seine Aufgaben langfristig erf\u00fcllen kann, ist eine kontinuierliche inhaltliche Weiterentwicklung elementar. An diesem Punkt setzte dieses MALIS-Projekt (Betreuer: Peter Kost\u00e4dt) an; im Rahmen des Projektes wurden Ans\u00e4tze herausgearbeitet, die es erm\u00f6glichen, computergest\u00fctzt neue Terme f\u00fcr eine Erweiterung des STW zu ermitteln.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"ppma_author":[74],"class_list":["post-379","post","type-post","status-publish","format-standard","hentry","category-uncategorized"],"authors":[{"term_id":74,"user_id":1,"is_guest":0,"slug":"dorotheehofferberth_mp1kr1mf","display_name":"admin","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/862479b782e1645f289a7c44dffa4aae19e8ecad3f5f88b8de166de7bce289a0?s=96&d=blank&r=g","0":null,"1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/posts\/379","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/comments?post=379"}],"version-history":[{"count":23,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/posts\/379\/revisions"}],"predecessor-version":[{"id":552,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/posts\/379\/revisions\/552"}],"wp:attachment":[{"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/media?parent=379"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/categories?post=379"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/tags?post=379"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/malisprojekte.web.th-koeln.de\/wordpress\/wp-json\/wp\/v2\/ppma_author?post=379"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}