Von unerwartet schwierigem Umgang mit kurzlebigen Daten, Dateien, Informationen und weiteren Herausforderungen bei der digitalen Langzeitarchivierung berichtet Alena Tenchova-Janzik.
Für eine Session des Open Science Barcamps hat Dr. Katharina Markus von ZB MED das Thema „Open Science, FAIR – Wiederverwendbarkeit durch Langzeitarchivierung“ zur Diskussion gestellt. Schnell stellte sich heraus, dass Langzeitarchivierung ein überaus komplexes Thema ist.
Das Problem der Archivierung
Egal ob Bibliothek, Museum oder Archiv -– jede Institution, die eine Funktion als Wissensspeicher erfüllt, steht vor dem gleichen Problem: Nach welchen Kriterien sollen die Informationen aus dem nahezu unendlichen und täglich größer werdenden Strom von Informationen ausgewählt werden, deren mittel- und langfristige Verfügbarkeit für Gesellschaft, Wissenschaft, Kunst oder Wirtschaft von Bedeutung ist? Und wer traut sich zu, über die Relevanz zu entscheiden?
Die Informationsmengen sind dabei nahezu unvorstellbar groß. Allein in Europa wurden 2020 laut Federation of European Publishers (FEP) über 600.000 Bücher publiziert, auf der Video-Plattform YouTube werden täglich über 500 Stunden Videomaterial hochgeladen und an deutschen Forschungseinrichtungen arbeiten 480.000 Wissenschaftler:innen und Forscher:innen. Die staatlichen Archive des Bundes und der Länder beheimaten heute schon über 2 Millionen Regalmeter Archivmaterial und über 75 Terabyte Daten. Neben der (Daten-)Menge spielen das Format und die Rechte eine zentrale Rolle.
Forschungsdaten ein ganz besonderes Problem
Dr. Markus wies als ZB MED-Expertin für den Bereich Langzeitarchivierung auf die besonderen Herausforderungen im Umgang mit Forschungsdaten hin.
Diese Daten stellen spezielle Anforderungen an die digitale Langzeitarchivierung, etwa bezüglich des Datenumfangs, der Format- und Datenvielfalt oder den Kontakten in die Wissenschaftscommunity. Die Vorgabe der unbedingt zu berücksichtigenden Nachnutzbarkeit der Daten für spätere Forschende machen besondere Vorkehrungen erforderlich.
Die Frage der Relevanz und damit der Langzeitarchivierung ist im Falle von Forschungsdaten einerseits komplex – allein aufgrund der Inhomogenität der Daten – und andererseits einfach zu beantworten: Alles ist relevant. Wissenschaftliche Methoden und Fragestellungen ändern sich im Laufe der Zeit. Wissen, das nicht wiederherstellbar oder nicht auffindbar ist, ist für die Wissenschaft verloren. Die Vielfalt des Wissenschaftsbetriebes und der dort generierten Daten machen umfassende Grundsatzentscheidungen nahezu unmöglich. Best Practice ist ein fachspezifischer Ansatz. Hierbei werden in enger Zusammenarbeit und im ständigen Austausch mit den Forschenden Regeln für den Umgang mit Daten eines Teilbereiches des Wissenschaftsbetriebes festgelegt. In der Praxis ist eine fachspezifische Ausrichtung der für die Speicherung der Informationen verantwortlichen Institution sinnvoll. ZB MED oder das Deutsche Musikarchiv (DMA) sind nur zwei Beispiele aus der Praxis.
Langzeitarchivierung von Anfang an Mitdenken
Bereits bei der Erstellung von Daten und Publikationen aber spätestens bei Veröffentlichung sollte eine Langzeitarchivierung mitbedacht werden. Fehlende Rechteinformationen oder proprietäre Dateiformate erschweren den Erhalt. Empfehlenswert sind für alle Arten von Publikationen offene, standardisierte Formate.
Rechtliche Fragen – auch das noch!
Zusätzliche Herausforderungen kommen aus Bereichen, die mit dem reellen Wissenschaftsbetrieb nur wenig zu tun haben. Urheber- und Patentrecht oder die Frage nach der Umsetzung maschinenlesbarer Rechteauszeichnungen spielen in der Langzeitarchivierung eine wichtige Rolle. Die Nachnutzung von Forschungsdaten kann über verschiedene Lizenzmodelle geregelt werden. Die am häufigsten verwendeten Lizenzen sind die Creative-Commons-Lizenzen (CC-Lizenzen).
Diese Anforderungen an Forschungsdaten und den Umgang mit ihnen spiegeln sich etwa in den FAIR-Guidelines oder FAIR-Prinzipien wieder. Findability, Accessibility, Interoperability and Reusability digitaler Daten stehen dabei im Vordergrund. Die sich hieraus ergebenden Anforderungen an Forschungsdaten lassen sich auf die Langzeitarchivierung übertragen.
Fazit
Wie Dr. Markus am Ende der Session feststellte, ist Langzeitarchivierung ein sehr komplexes Thema. Immer wieder stellen sich die zentralen Fragen: Was lohnt sich zu archivieren? Wie geht man mit verschiedenen Formaten um? Unter welchen Lizenzen wird veröffentlicht? Was ist finanziell und technisch leistbar?
DOI (Digitalausgabe): https://doi.org/10.48664/pf9t-kk76
Pingback: Open Science Goes Cologne