Von Alexandra Hagelstein
Semantische Suche
Im letzten Blogbeitrag der LIVIVO-Labs „Beyond Metada“ haben wir die Vorgehensweise beschrieben, wie wir LIVIVO semantisch mithilfe von Entitäten aus Ontologien anreichern. Die Entitäten werden mit dem UIMA Framework extrahiert und in unserem ZB MED Knowledge Environment gespeichert.
Bei genaueren Betrachtungen sind uns weitreichende Überschneidungen aufgefallen. Beispielsweise zeigen unsere Wordclouds die häufigsten gefundenen Begriffe aus den Thesauri in LIVIVO (1).
Interdisziplinarität der Suche
LIVIVO als Suchportal für die Lebenswissenschaften enthält Publikationen aus den Bereichen der Medizin, des Gesundheitswesens, der Ernährungs-, Umwelt- und Agrarwissenschaften. Mit MeSH (Medical Subject Headings) wird das ZB MED Knowledge Environment mit medizinischer Terminologie angereichert, Agrovoc deckt den landwirtschaftlichen Bereich ab, DrugBank umfasst pharmazeutische Fachbegriffe.
Ähnlichkeitsvergleich der Ontologien
In einer aktuellen Publikation (2) haben wir die drei erwähnten Thesauri auf ihre Ähnlichkeiten verglichen. In den Thesauri und somit in den automatisch generierten Wordclouds überschneiden sich vor allem Oberbegriffe wie zum Beispiel „Patients“ oder „Methods“. Als Maß, um die Ähnlichkeit zwischen den Ontologien zu messen, verwenden wir den Jaccard-Koeffizienten. Er teilt die Anzahl der gemeinsamen Begriffe durch die Größe aller in den jeweiligen Thesauri vorkommenden Begriffe.
Je höher der Jaccard-Koeffizent – er kann maximal den Wert „1“ annehmen – desto größer ist die Ähnlichkeit der Thesauri.
Ergebnisse
Der Jaccard-Koeffizent zwischen den Thesauri MeSH und Agrovoc beträgt 0,09.
Beim Betrachten der 1000 häufigsten Begriffe aus dem ZB MED Knowledge Environment steigt dieser Koeffizient auf 0,3 an. Das heißt, dass viele der häufigen Begriffe aus dem Suchportal LIVIVO sowohl in dem MeSH-Thesaurus, als auch in Agrovoc enthalten sind.
Der Koeffizient zwischen Agrovoc und DrugBank ist im Vergleich dazu sehr niedrig und liegt bei 0,005. Die modellierten Begriffe im Thesaurus DrugBank sind im Wesentlichen durch spezifisches Wissen geprägt und enthalten weniger Oberbegriffe als die Thesauri MeSH und Agrovoc. MeSH und Agrovoc teilen sich einige Begriffe, da sie als Oberbegriffe in vielen Disziplinen anwendbar sind. So werden Begriffe wie „Therapy“ oder „Research“ in den Thesauri abgebildet, enthalten aber kein spezifisches und unterscheidbares Fachwissen.
Zwei Venndiagramme veranschaulichen die Ergebnisse. Diagramm A stellt die Überschneidungen zwischen den Thesauri MeSH, DrugBank und Agrovoc dar. Diagramm B zeigt die Überschneidung der 1000 häufigsten Begriffe in LIVIVO.
Fazit
Diese Ergebnisse zeigen Schwierigkeiten, die bei der Extraktion von Begriffen aus verschiedenen Wörterbüchern für die Literatursuche auftreten. Um die Überschneidung der Begriffe zu vermeiden, gibt es zwei Möglichkeiten: Entweder die überschneidenden Oberbegriffe aus den Ontologien werden zusammengefasst und ergeben nur einen Treffer oder es wird ein Verfahren genutzt, dass die Oberbegriffe auslässt. Das Auslassen der Oberbegriffe würde jedoch zu einem Ausfall von Informationen führen, dafür könnte aber möglicherweise die Genauigkeit der Treffer erhöht werden.
Die Publikation wurde im Rahmen der EKAW (International Conference on Knowledge Engineering and Knowledge Management) (3) eingereicht. Die diesjährige EKAW Konferenz befasst sich mit der Wirkung von Raum und Zeit auf die Repräsentation von Wissen. Mit dem Suchportal LIVIVO ermöglichen wir unseren Nutzern den Zugang zu Literatur aus 55 Millionen Publikationen aus dem Bereich der Lebenswissenschaften.
(1) LIVIVO Laboratories
(2) Müller, B., Hagelstein, A., Gübitz T.: Life Science Ontologies in Literature Retrieval: A Comparison of Linked Data Sets for Use in Semantic Search on a Heterogueneous Corpus. Proceedings of the 20th International Conference on Knowledge Engineering and Knowledge Management, Bologna, Italy (2016)
(3) International Conference on Knowledge Engineering and Knowledge Management, Bologna (Italy), 19.-23. November 2016