You are currently viewing Anwendungsnahe Forschung

Anwendungsnahe Forschung

Die PhD-Studentin Lisa Kühnel gibt einen Überblick über ihre Arbeiten

Maschinenlesbarkeit und Zugang zu Daten, Informationen und Wissen sind Kernvoraussetzungen für datengetriebene Analysen und notwendig, um neue Erkenntnisse zu erlangen. Die datengesteuerte Forschung wird jedoch, insbesondere im biomedizinischen Bereich, durch mehrere Aspekte erschwert. Während wissenschaftliche Kommunikation in Form von wissenschaftlichen Publikationen für Forschende der Standard ist, sind diese weder maschinenlesbar noch leicht auffindbar — wenn man den enormen Wachstum elektronischer Daten berücksichtigt. Im Gegensatz dazu sind medizinische Daten zwar (zumindest teilweise) strukturiert abgelegt, der Zugang ist aufgrund von Datenschutzgesetzen jedoch eingeschränkt.

Es wurde bereits viel Forschung betrieben, um automatisch Informationen aus unstrukturierten Daten zu extrahieren — dies wird als Text Mining bezeichnet. Die aktuellen State-of-the-Art-Methoden wurden vor allem durch die Fortschritte im Deep Learning gefördert und zeigen vielversprechende Ergebnisse auf den verfügbaren Korpora. Da jedoch die manuelle Aufbereitung von Datensätzen eine komplexe und zeitaufwändige Aufgabe ist — und daher nur eine begrenzte Anzahl von annotierten Korpora existiert — bleibt es fraglich, wie robust die Methoden sind und ob sie in digitalen Diensten zur Unterstützung von Forschenden eingesetzt werden können.

Erstes Ziel meiner Doktorarbeit:

Zunächst ging ich der Frage nach, ob die aktuellen State-of-the-Art-Methoden ausreichend robust sind, um sie in Literaturdienste zu integrieren — mit der Option die existierenden Methoden bei Bedarf zu optimieren. 

Methodisches Vorgehen:

Am Beispiel von Krankheitsentitäten konnte unsere Forschungsgruppe nachweisen, dass die aktuellen Methoden zwar sehr gute Ergebnisse auf den einzelnen Korpora zeigen, jedoch sogenannte Cross-Evaluationen — das heißt Auswertungen auf einem ähnlichen Testdatensatz, der zwar die gleichen Annotationsrichtlinien befolgt, aber unabhängig vom Trainingskorpus erstellt wurde — zu einem deutlichen Leistungsabfall führen [1]. Daher analysierten wir die vorhandenen Korpora und argumentieren, dass diese entweder zu klein und/oder zu spezifisch sind, um robuste Modelle zu trainieren. Um bereits trainierte Modelle zu verbessern, habe ich mich mit Methoden des kontinuierlichen Lernens beschäftigt und diese erweitert [2].

Transfer von Forschung in Anwendung:

Screenshot von Twitter

Die zunehmende Menge der täglich erscheinenden Literatur, insbesondere während der COVID-19-Pandemie, unterstreicht den Bedarf an digitalen Diensten mit automatischen Indizierungsmethoden. Daher wurde im Rahmen meiner Arbeit die semantische Suchmaschine preVIEW COVID-19 entwickelt [3, 4, 5]. Der Preprint Viewer umfasst inzwischen mehr etwa 72.000 Preprints (Stand Juli 2023) von zehn verschiedenen Preprint-Servern. Die harmonisierten Daten werden mit Hilfe von Text-Mining-Methoden angereichert. Um die bereits erwähnte Lücke zwischen Forschung und Anwendung zu minimieren, haben wir bekannte Text-Mining-Lösungen für unseren spezifischen Anwendungsfall COVID-19 angepasst und verbessert.

Des Weiteren konnten wir den Service durch enge Kooperationen mit den Nutzenden, zum Beispiel Informationsspezialist:innen des Robert Koch-Instituts und der WHO, stetig weiter entwickeln und verbessern. Durch diese Zusammenarbeit konnten wir beispielsweise anhand von manuell selektierten Daten einen Long-COVID-Klassifikator trainieren. Das hat es uns möglich gemacht, eine neue Filterfunktion zum Service hinzuzufügen, die die Suche nach relevanten Artikeln deutlich vereinfacht [6].

Forschung braucht Anwender:innen:

Für die integrierten Text-Mining-Methoden haben wir einen Feedbackbutton eingebaut, der es den Nutzenden ermöglicht, die gefundenen Annotationen oder Klassifikationen als korrekt oder falsch zu markieren. Die Antworten werden in einer internen Datenbank gespeichert, welche es uns ermöglicht, neue Datensätze zu sammeln und die bestehenden Methoden kontinuierlich zu erweitern. Dieser Modus wurde von Wissenschaftler:innen der WHO genutzt, um weitere Dokumente für den Long-COVID-Klassifikator zu annotieren und diesen dementsprechend zu verbessern.

Screenshot von der RKI Website

Mein zweites Ziel: Synthetische Daten

Der eingeschränkte Zugang zu privaten medizinischen Daten ist eine ganz andere Herausforderung. Während Anonymisierungstechniken zum Schutz des Einzelnen sehr beliebt sind, bleibt die Sicherstellung der Nützlichkeit der Daten nach wie vor ein Problem. Um dieses Problem zu adressieren, verfolgte ich ein zweites Ziel: die Entwicklung und Evaluierung von Methoden zur Erzeugung synthetischer Daten. Mit diesen Methoden wird ein völlig neuer Datensatz erzeugt, der jedoch die gleichen statistischen Eigenschaften beibehält. In meiner Arbeit untersuche ich die Anwendbarkeit von Methoden zur Generierung synthetischer, longitudinaler Daten anhand eines realen Beispiels von epidemiologischen Daten. Dabei liegt der Fokus auf der Nützlichkeit der generierten Daten, was wir mithilfe von Expert:innen anhand von realen Analysen testen. Eine Publikation dazu ist gerade noch in der Vorbereitung.

Promovieren bei ZB MED

Die Promotion bei ZB MED ist vielseitig und anwendungsnah, lässt aber auch genügend Freiraum für Methodenforschung und persönliche Schwerpunkte. Durch die Anbindung an die Graduiertenschule DILS — Digital Infrastructures for the Life Sciences kommt auch der Austausch mit anderen Doktorandinnen und Doktoranden nicht zu kurz. Sie bietet zudem auch den perfekten Rahmen für Weiterbildungen oder Forschungsaufenthalte im Ausland. So hatte ich die einmalige Gelegenheit, drei Monate in der Forschungsgruppe von Prof. Dr. Nigel Collier an der University of Cambridge zu verbringen [7].

Dieser Beitrag erschien parallel im ZB MED-Jahresbericht 2022.

DOI (Digitalausgabe):  https://doi.org/10.48664/dpk1-ae30


Referenzen:

[1] Kühnel, L.; Fluck, J. We Are Not Ready yet: Limitations of State-of-the-Art Disease Named Entity Recognizers. Journal of Biomedical Semantics 2022, 13 (1), 26. https://doi.org/10.1186/s13326-022-00280-6.

[2] Langnickel, L.; Schulz, A.; Hammer, B.; Fluck, J. BERT WEAVER: Using WEight AVERaging to Enable Lifelong Learning for Transformer-Based Models. arXiv:2202.10101 [cs] 2022.

[3] https://preview.zbmed.de

[4] Langnickel, L.; Baum, R.; Darms, J.; Madan, S.; Fluck, J. COVID-19 PreVIEW: Semantic Search to Explore COVID-19 Research Preprints. Public Health and Informatics 2021, 78–82. https://doi.org/10.3233/SHTI210124.

[5] Langnickel, L.; Darms, J.; Baum, R.; Fluck, J. PreVIEW: From a Fast Prototype towards a Sustainable Semantic Search System for Central Access to COVID-19 Preprints. JEAHIL 2021, Journal of EAHIL (Vol 17 No 3 (2021)), 8–14. https://doi.org/10.32384/jeahil17484.

[6] Langnickel, L.; Darms, J.; Heldt, K.; Ducks, D.; Fluck, J. Continuous Development of the Semantic Search Engine PreVIEW: From COVID-19 to Long COVID. Database 2022, 2022, baac048. https://doi.org/10.1093/database/baac048.

[7] News auf der ZB MED-Website zum Forschungsaufenthalt: ogy.de/ubnq

Schreibe einen Kommentar