Bericht vom Workshop über persistente Identifikatoren am 23. Januar 2019 bei ZB MED – Informationszentrum Lebenswissenschaften am Standort Köln
von Birte Lindstädt
Im gesamten Lebenszyklus von Forschungsdaten kommt den persistenten Identifikatoren (PIDs) eine zentrale Funktion zu: Sie ermöglichen die verlässliche Referenzierbarkeit und langfristige Verfügbarkeit von Forschungsdaten. PIDs schaffen allerdings noch andere, weniger bekannte Möglichkeiten der Datenreferenzierung und -nachnutzung. So werden PIDs auch eingesetzt, um Arbeitsdaten eindeutig zu kennzeichnen, zum Beispiel Datensatz-Versionen zu unterscheiden und somit einen Austausch in einer Arbeits- oder Projektgruppe zu ermöglichen (vgl. ePIC PID).
Vor dem Hintergrund, dass in manchen lebenswissenschaftlichen Disziplinen Forschungsdaten aufgrund der Datenschutzgesetzgebung oftmals nicht publiziert werden können, kommt dem Nachweis der Forschungsdaten eine große Bedeutung zu. Deshalb können neben publizierten Forschungsdaten auch nur eingeschränkt zugängliche Daten mit einem PID – konkret zum Beispiel einem DOI – und entsprechenden öffentlichen Metadaten versehen werden; die Forschungsdaten selbst bleiben in einer den jeweiligen Datenschutzregelungen entsprechenden Umgebung.
Um die verlässliche Referenzierbarkeit nicht nur der Forschungsdaten selbst, sondern auch die der jeweiligen Datenproduzenten zu gewährleisten, gibt es personen- bzw. institutionenbezogene PIDs, zum Beispiel ORCID (Open Researcher and Contributor ID).
Das Verknüpfen der einem Datensatz jeweils zugewiesenen PIDs in Suchportalen eröffnet neue Möglichkeiten der Wertschöpfung aus Daten bzw. des Erkenntnisgewinns.
Der Workshop stellte PIDs in einen breiteren Kontext, indem folgende Fragen beantwortet wurden:
- Was ermöglichen PIDs jenseits des Aspekts der Persistenz und wie kann der Forschungsprozess dadurch verbessert werden?
- Welche PIDs gibt es und was sind ihre Anwendungsfelder?
- Welche aktuellen Entwicklungen rund um PIDs finden auf nationaler und europäischer Ebene statt?
- Best-Practice-Berichte: Wie sieht die aktuelle Praxis bei den Datenzentren im Hinblick auf PIDs aus und was sind die Herausforderungen?
- Welche Services rund um PIDs werden von ZB MED angeboten oder sind in Planung?
Unter den Teilnehmenden waren Vertreterinnen und Vertreter verschiedener Informationsinfrastrukturen: Bibliotheken, Museen, Forschungseinrichtungen und Rechenzentren.
Die regen Diskussionen zeigten, dass sich verschiedene PID-Systeme aktuell in einer Phase der Reifung und Konsolidierung befinden. Die Schnittstellen zwischen PID-Systemen – etwa hinterlegte Metadatenschemata – müssen dabei noch weiterentwickelt und implementiert werden, damit die Mehrwerte für die dauerhafte Referenzierbarkeit und Interoperabilität von Forschungsdaten, die mit den PIDs assoziiert und von ihnen erhofft werden, auch tatsächlich realisiert werden können.
Dies ist insbesondere im Hinblick auf das Forschungsdatenmanagement zwingend notwendig. Eine 2018 von ZB MED in Auftrag gegebene Umfrage unter Forschenden in den Lebenswissenschaften zeigt nämlich, dass aktuell zwar bereits 81% der Befragten PIDs nutzen, lediglich 22% von ihnen aber auch PIDs für Forschungsdaten vergeben.
Wie wichtig die Verbreitung der PID-Anwendung für Forschungsdaten ist, demonstrierte Benedikt Hummel vom Bundesinstitut für Risikobewertung (BfR) am Beispiel der Animal Study Registry. Die Veröffentlichung von Tierversuchsdaten einschließlich Metadaten, die deren bestmögliche Auffindbarkeit und Referenzierbarkeit sichern sollen, ist die Voraussetzung, um unnötige Tierversuche zu reduzieren. Neben diesem ethischen Aspekt wird auch die Effizienz und Qualität der Forschung erhöht, indem redundante Studien vermieden und datenbasierte Plausibilitätsprüfungen ermöglicht werden.
Jens Dierkes stellte anschließend vor, welche Herausforderungen an der Universitäts- und Stadtbibliothek Köln in puncto PIDs, insbesondere DOI (Digital Object Identifier), bestehen. Danach zeigte er auf, welche Lösungen aktuell entwickelt werden. Besonders interessant war die Entwicklung eines neuartigen Ansatzes, ein User-Interface auf der Basis von Unterdomains anzubieten. Dadurch sollen einzelne Institute in die Lage versetzt werden, selbstständig DOIs unter dem ihnen zugewiesenen DOI-Suffix einpflegen zu können.
Ulrike Wittig vom Heidelberger Institut für Theoretische Studien (HITS) präsentierte mehrere bereits operative Services. Auf großes Interesse stieß dabei die webbasierte Plattform fairdomhub, die auf der Open-Source-Software SEEK basiert. Diese Plattform ermöglicht zunächst den internen Austausch heterogener wissenschaftlicher Datensätze, Modelle, Simulationen, Prozesse und Forschungsergebnisse zwischen den Forschenden. Auf einer niedrigschwelligen Ebene können Forschende auf diese Weise in das Forschungsdatenmanagement einbezogen werden. Im Verlauf des Forschungsprojekts können Forschende selbstständig entscheiden, ob und wenn ja welche Forschungsdaten sie publizieren wollen. Darüber hinaus lässt sich frei wählen, auf welchen Plattformen die ausgewählten Datensätze publiziert werden und wie weitreichend die Datennutzungsrechte sein sollen (Lesezugriff, Downloadmöglichkeit, Editier- oder Administratorrechte). Die Möglichkeit einer automatischen DOI-Vergabe auf verschiedenen Granularitätsebenen eines Datensatzes ist in SEEK bereits implementiert.
Die Berichte aus der Praxis zeigten eindrücklich, wie die Forschung durch Infrastrukturangebote unterstützt werden kann. Zum Ende des Workshops wurde dargestellt, in welchen Bereichen des Datenlebenszyklus ZB MED eigene Services anbietet und entwickelt.
Workshop-Präsentation von ZB MED: PID-Workshop bei ZB MED_2019-01-23
Weitere Informationen zum Workshop
DOI (Digitalausgabe): https://doi.org/10.48664/zpr6-4604