You are currently viewing Die Rolle von Terminologien bei der Umsetzung der FAIR-Prinzipien

Die Rolle von Terminologien bei der Umsetzung der FAIR-Prinzipien

von Prof. Dr. Juliane Fluck

Eine Voraussetzung für die Nachnutzung von Forschungsdaten sind FAIRe Metadaten [1], also strukturierte Daten, die die Forschungsdaten beschreiben. Sie bieten idealerweise semantisch eindeutige Beschreibungen der Daten. Wichtig dabei: Sie sollten sowohl für Menschen als auch für Computer interpretierbar sein. Um die (Meta-)Daten über ihren ursprünglichen Zweck hinaus und in verschiedenen Umgebungen direkt wiederverwenden zu können, müssen diese interoperabel sein. Daher sollten auch die Terminologien, die für Beschreibungen verwendet werden, den FAIR-Grundsätzen folgen und eine formale und zugängliche Sprache zur Wissensdarstellung ermöglichen.

Die Nutzung von Terminologien zur Beschreibung von Daten ist aktuell noch nicht weit verbreitet, weil

  1. fast in keiner Disziplin vollständige Terminologien vorliegen,
  2. diese bei den Forschenden nicht bekannt sind,
  3. entsprechende Werkzeuge fehlen, um sie einfach zu nutzen.

ZB MED arbeitet und forscht in allen drei Themenfeldern, um die Nutzung von Terminologien zu vereinfachen und gleichzeitig den Vorteil semantischer Metadaten in seinen eigenen Werkzeugen zu nutzen.

ZB MED-Terminologiedienst SemLookP 1

Mit SemLookP stellt ZB MED domänenspezifisch Terminologien  für verschiedene lebenswissenschaftliche Anwendungen bereit und entwickelt diesen Service entsprechend der Bedarfe der Communitys und in Kooperation mit vielen NFDI-Konsortien weiter. Der Dienst basiert auf einer vom European Bioinformatics Institute (EMBL-EBI) [2] entwickelten Software, dem Ontology Lookup Service (OLS), und dem Mappingservice Ontology Xref Service (OxO) [3]. SemLookP wurde im Rahmen des BMBF-Projekts Integrative Datensematik für Neurodegenerative Forschung (IDSN) eingerichtet [4]. Für die biomedizinische Forschung und die translationale Medizin bietet SemLookP einen zentralen Zugang zu den wichtigsten Ontologien für die Metadaten-Annotation von Omics-Daten von Menschen, Mäusen und Ratten sowie von klinischen Daten.

Funktionalitäten von SemLookP:

Der Service unterstützt zum einen die Annotation von Metadaten, zum anderen die Datensuche. Die Nutzung ist sowohl für Menschen als auch für Maschinen möglich, denn der Zugriff auf die integrierten Terminologien kann entweder auf der Webseite über eine grafische Oberfläche erlangt werden oder programmatisch über eine Programmierschnittstelle (API). Eine Freitextsuche ermöglicht das schnelle Durchsuchen der Terminologien. Dabei unterstützt eine Funktion zur Autovervollständigung des eingegebenen Texts die Nutzenden. Detaillierte Informationen wie Beschreibungen, Synonyme oder die hierarchische Einordnung innerhalb der Terminologie werden zu einem Term dargestellt. Der Mappingservice OxO ermöglicht außerdem die Verknüpfung von Konzepten verschiedener Terminologien. SemLookP bietet programmatischen Zugriff über eine API und die einfache Integration einzelner Funktionen in sogenannten Widgets. Insbesondere diese kleinen Programmbausteine können in anderen Diensten genutzt werden und vereinfachen die Nutzung und Visualisierung semantischer Informationen. So wurden z. B. Metadaten wie Beschreibungen, Synonyme, Querverweise und die hierarchische Ansicht eines Terms in einem Informationswidget zur Verfügung gestellt. Das Widget stellt durch eine einfache Konfiguration einen domänenspezifischen Service bereit, der eine jeweils passende Terminologie auswählt.

Domänen-spezifische Bereitstellungen des Services

Für das Drittmittelprojekt Nationale Forschungsdateninfrastruktur für personenbezogene Gesundheitsdaten (NFDI4Health)2 wurde SemLookP um Terminologieressourcen erweitert, die für die NFDI4Health-Domäne relevant sind. Dazu zählen z. B. medizinische Terminologien wie Systematized Nomenclature of Medicine – Clinical Terms (SNOMED CT)3 oder International Classification of Diseases (ICD10)4 und ernährungsepidemiologische Terminologien wie FoodEx25, ein System zur Klassifizierung und Beschreibung von Lebensmitteln. Dadurch wurden Forschenden in den Bereichen Klinik und Epidemiologie Vokabulare zur Standardisierung und Harmonisierung von Studien zugreifbar gemacht, um diese interoperabel zu machen und studienübergreifende Analysen durchführen zu können.

In Kooperation mit dem Bundesinstitut für Risikobewertung (BfR) wird ein Service mit Terminologien für die Domäne der Futter- und Lebensmittelprozesse etabliert. Hierzu wurden existierende Ontologien und Terminologien evaluiert und Konzepte erarbeitet, um einen Basissatz von Terminologien für diesen Bereich zur Verfügung zu stellen. Aktuell werden bestehende Ontologien aus dem Bereich der Lebensmitteltechnologie, Landwirtschaft und der Ernährungswissenschaften integriert und erweitert, beziehungsweise Mappings erzeugt. Zum Darstellen des Wissens aus der Lebensmitteldomäne werden beispielsweise die Ontologie FoodOn und die Terminologie FoodEx2 verwendet, aus der Futterdomäne das kontrollierte Vokabular AGROVOC und die Ontologie EOL. Die resultierenden Ontologien und Mappings werden der fortlaufenden Erfassung von Fachinformationen dienen und dieses Wissen effizient bereitstellen. Hierfür werden sie in SemLookP integriert werden.

Für das 2023 neu startende NFDI-Konsortium FAIRagro ist die Bereitstellung eines Terminologieservices für die Agrosystem-Forschung geplant. Dieser wird insbesondere Terminologien für die Beschreibung von Feld-Phänotypdaten, Langzeitfeldversuchen oder Pflanzenzüchtung enthalten.

Innerhalb der Nationalen Forschungsdateninfrastruktur werden Querschnittsthemen konsortien-übergreifend durch verschiedene Sektionen bearbeitet. ZB MED leitet die Arbeitsgruppe Terminologieservices in der Sektion (Meta)daten, Terminologien, Provenienz. In enger Zusammenarbeit mit der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften und Universitätsbibliothek, dem Institut für Angewandte Informatik (InfAI) und weiteren Institutionen sollen die Terminologiedienste weiter ausgebaut werden.

Der Deutsche MeSH, die Übersetzung des Schlagwortregisters Medical Subject Headings für biomedizinische Fachbegriffe, wurde zusätzlich in den Terminologiedienst integriert und ermöglicht so auch die Suche von deutschen Begriffen. Es ist geplant, weitere deutschsprachige Fachterminologien einzubinden, insbesondere solche, die das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) zur Verfügung stellt.

Wo kommen SemLookP-Dienste schon jetzt zur Anwendung?

In der bereits 2020 entwickelten PrePrint-Suchmaschine preVIEW COVID-19 [5], [6], die aktuell über 67.000 sogenannte Preprint-Veröffentlichungen enthält, wird SemLookP eingesetzt, um die semantische Suche über Terminologien zu ermöglichen, die in preVIEW zur Annotation von COVID-19-Preprints genutzt wurden. Zusätzlich wird die Hintergrundinformation zu jeder Annotation im Text mit Hilfe eines SemLookP-Widgets umgesetzt. Das Widget vereinfacht so die Bereitstellung eines neuen Dienstes. Die Vorarbeiten des zunächst prototypisch entwickelten Services werden nun in das am 1. Januar 2023 startende Drittmittelprojekt PiXLS6 zur weiteren Etablierung eines PrePrint-Services einfließen und auch dort genutzt.

NFDI4Health setzt SemLookP-Features in fast allen Services ein. Ein Beispiel einer gelungenen Integration ist der Dienst Metadata Annotation Workbench [7] , der innerhalb von NFDI4Health entwickelt wurde und 2022 in einer ersten Version online ging. Der Service unterstützt Forschende in der Metadatenannotation von Studienvariablen. Anhand verschiedener Anwendungsszenarien aus den Bereichen Ernährungsepidemiologie und chronische Erkrankungen wurde der Dienst nutzerorientiert entwickelt. Die Anwendung basiert auf SemLookP: Die zur semantischen Annotation verwendeten Terminologien werden durch den Dienst bereitgestellt und das Informationswidget wurde zur Darstellung der Metadateninformation integriert.

Was ist eine Terminologie?

Der Begriff wird definiert als „Gesamtheit aller Fachwörter (Termini) eines Fachgebietes“7. Dabei wird die Bedeutung der Fachtermini durch möglichst exakte Definitionen, Synonyme und ergänzende Informationen festgelegt. Terminologien können hierarchisch organisiert sein, dann nennt man sie Thesaurus. Ein Beispiel dafür sind die Medical Subject Headings (MESH)8, ein weltweit verbreitetes, polyhierarchisches, konzeptbasiertes Schlagwortregister für biomedizinische Fachbegriffe, das seit 2020 von ZB MED übersetzt und als Deutscher MeSH zur Verfügung gestellt wird. Wenn die Terminologie nach formalen semantischen Konzepten aufgebaut ist und die Relationen innerhalb des gesamten Wissens einer Domäne abbildet, handelt es sich um eine Ontologie. Ein Beispiel hierfür ist FoodOn, ein kontrolliertes Vokabular, das entwickelt wurde, um alle Teile von Tieren, Pflanzen und Pilzen zu benennen, die als Nahrungsmittel für Menschen und domestizierte Tiere in Frage kommen.

Die Grundlage für FAIRe Metadaten und insgesamt für das Forschungsdatenmanagements ist ein kontrolliertes Fachvokabular. Beispiele sind die Nutzung von gleichen medizinischen Terminologien wie ICD und SNOMED zur Dokumentation von Krankheiten. Nur so ist effiziente und eindeutige fachsprachliche Kommunikation möglich. Für die automatische Zuordnung sind eindeutige Identifikatoren wesentliche Voraussetzung. Die Verwendung von Terminologien bei der Beschreibung der Forschungsdaten verbessert sowohl die Genauigkeit und Qualität als auch die Wiederverwendung. Darüber hinaus können Terminologien in Computerprogrammen eingesetzt werden, um Inhalte eindeutig fachlich-inhaltlich zu kategorisieren. Sie dienen dazu, unterschiedliche digitale Inhalte miteinander zu vergleichen.

Dieser Beitrag erscheint parallel im ZB MED-Jahresbericht 2022.

DOI (Digitalausgabe): https://doi.org/10.48664/r728-ed67


1 https://semanticlookup.zbmed.de/ols/docs/index

2 https://www.nfdi4health.de/

3 https://www.snomed.org/snomed-ct/Use-SNOMED-CT

4 https://www.bfarm.de/EN/Code-systems/Classifications/ICD/ICD-10-GM/_node.html

5 https://www.efsa.europa.eu/en/data/data-standardisation

6 https://www.zbmed.de/forschen/laufende-projekte/pixls

7 https://www.zbmed.de/open-science/terminologien/

8 https://www.nlm.nih.gov/mesh/meshhome.html

Quellen:

[1] M. D. Wilkinson et al., ‘The FAIR Guiding Principles for scientific data management and stewardship’, Sci. Data, vol. 3, p. 160018, Mar. 2016, doi: 10.1038/sdata.2016.18.

[2] ‘The European Bioinformatics Institute < EMBL-EBI’. https://www.ebi.ac.uk/ (accessed Sep. 14, 2020).

[3] S. Jupp, T. Burdett, C. Leroy, and H. Parkinson, ‘A new Ontology Lookup Service at EMBL-EBI’, presented at the Workshop on Semantic Web Applications and Tools for Life Sciences, 2015. Accessed: Jan. 11, 2023. [Online]. Available: https://www.semanticscholar.org/paper/A-new-Ontology-Lookup-Service-at-EMBL-EBI-Jupp-Burdett/b83bfbfc1f2f08e5b88af5ef65ef2a8687ac4112

[4] ‘IDSN Project’, Integrative Data Semantics for Neurodegenerative research. https://www.idsn.info/en/idsn.html (accessed Sep. 19, 2022).

[5] L. Langnickel, R. Baum, J. Darms, S. Madan, and J. Fluck, ‘COVID-19 preVIEW: Semantic Search to Explore COVID-19 Research Preprints’, in Studies in health technology and informatics, vol. 281, 2021, pp. 78–82. doi: 10.3233/SHTI210124.

[6] L. Langnickel, J. Darms, R. Baum, and J. Fluck, ‘preVIEW: from a fast prototype towards a sustainable semantic search system for central’, JEAHIL, vol. Journal of EAHIL, no. Vol 17 No 3 (2021), pp. 8–14, Sep. 2021, doi: 10.32384/jeahil17484.

[7] L. Langnickel, J. Darms, K. Heldt, D. Ducks, and J. Fluck, ‘Continuous development of the semantic search engine preVIEW: from COVID-19 to long COVID’, Database, vol. 2022, p. baac048, Jan. 2022, doi: 10.1093/database/baac048.

Schreibe einen Kommentar