As open as necessary, as closed as possible: ein Leitfaden für schlechtes Forschungdatenmanagement

Kennen Sie das? Von allen Seiten wird die Forderung nach „Forschungsdatenmanagement“ laut: ob Uni, Förderer, Politik, Reviewer, sogar Ihre Vorgesetzten wollen plötzlich wissen, was Sie mit Ihren Daten anstellen. Und ob sie auch schon „open“ sind. Aber keine Panik! Im folgenden Leitfaden zeigen wir Ihnen, wie Sie selbst „offene“ Daten effektiv vor neugierigen Blicken und ungewollter Nachnutzung schützen.

Bild: Canva Dream Lab

Was ist eigentlich dieses Forschungsdatenmanagement?

Forschungsdatenmanagement sind zunächst einmal technisch-organisatorische Maßnahmen, die Ihnen helfen sollen, verantwortungsvoll mit Ihren Daten umzugehen. So weit, so harmlos; das steht schließlich sinngemäß seit 25 Jahren in der „Guten Wissenschaftlichen Praxis“ der Deutschen Forschungsgemeinschaft (DFG).

„Empfehlung 7: Sicherung und Aufbewahrung von Primärdaten: Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, zehn Jahre lang aufbewahrt werden.“ (DFG: Sicherung guter wissenschaftlicher Praxis; 1998, 2. Erg. Aufl. 2013, S. 21)

Doch Vorsicht! Neuerdings sollen Sie Ihre Daten nicht nur aufbewahren, sondern auch noch anderen zur Verfügung stellen! Die DFG schreibt dazu in ihrer neuesten Version der Guten Wissenschaftlichen Praxis:

„Aus Gründen der Nachvollziehbarkeit, Anschlussfähigkeit der Forschung und Nachnutzbarkeit hinterlegen Wissenschaftlerinnen und Wissenschaftler, wann immer möglich, die der Publikation zugrunde liegenden Forschungsdaten und zentralen Materialien – den FAIR-Prinzipien („Findable, Accessible, Interoperable, Re-Usable“) folgend – zugänglich in anerkannten Archiven und Repositorien“ (DFG: Leitlinien zur Sicherung guter wissenschaftlicher Praxis, https://www.dfg.de/resource/blob/173732/4166759430af8dc2256f0fa54e009f03/kodex-gwp-data.pdf S. 19)

Nachprüfen, okay. Aber nachnutzen? Warum sollten Sie Ihre hart erarbeiteten Daten mit anderen teilen?! Klar, die Daten wurden mithilfe öffentlicher Gelder erhoben; da ist es nicht ganz abwegig, dass sie auch öffentlich zur Verfügung stehen sollen.
Aber muss deshalb wirklich jede*r Ihre Daten einsehen und nutzen können? Natürlich nicht. Denn im Kampf gegen unerwünschte Nachnutzung schlagen Sie lästige Sekundärnutzer*innen mit ihren eigenen Waffen.

Die (un-)FAIR-Prinzipien

Diese Waffen sind die sogenannten FAIR-Prinzipien, d.h. Richtlinien zur Aufbereitung von Daten, um diese möglichst nachnutzbar für Mensch und Maschine zu halten. Daten sollen findbar, zugänglich (accessible), interoperabel und verwendbar (re-useable) sein. Und das lässt sich natürlich trefflich umkehren: Wenn Sie die folgenden vier Lektionen gewissenhaft beherzigen, bleiben auch veröffentlichte Daten verborgen, unzugänglich, nicht interoperabel und nicht nachnutzbar.

Lektion 1: Metadaten-Camouflage 

Vergessen Sie alles, was Sie über sorgfältige Dokumentation gelernt haben. Je kryptischer, desto besser! Ein Datensatz, der mehr Fragen aufwirft als beantwortet – das ist Ihre wissenschaftliche Visitenkarte! Haben Sie schon mal was von Metadaten gehört? Das sind Informationen, die andere brauchen, um Ihre Daten zu finden. Sehen Sie sich die Amateure an, die ihre Daten mit einem Haufen Metadaten versehen (Abb. 1). Die müssen sich nicht wundern, wenn ihr Datensatz gefunden, heruntergeladen und ggf. sogar zitiert wird.

Screenshot der Landingpage eines Datensatzes. Der Datensatz ist mit sehr guten und ausführlichen Metadaten angereichert.
Abb. 1: Schwarz, Hannah (2020). Data Collected for the Study of Memory Effects in Repeated Survey Questions; https://doi.org/10.7802/2027.

Und genau hier setzen wir an: Weniger ist mehr! In Abb. 2 sehen Sie, wie clever andere dieses Problem lösen.

Screenshot eines Datensatzes bei Zenodo, der außer Titelk und Datum keine weiteren Informationen oder Metadaten enthält.
Abb. 2: anonymous (2021). Teaching ESE Survey data set (1.0); https://doi.org/10.5281/zenodo.5106333.

Und das ist erst der Anfang: Mit etwas Übung können Sie dieses Versteckspiel perfektionieren: einfach Daten an der falschen Stelle eintragen, falsche Informationen angeben usw. Ihrer Phantasie sind hier keine Grenzen gesetzt. Warum nicht z.B. das Etikett ändern und Daten einfach als Artikel kennzeichnen, so wie in Abb. 3?!

Screenshot eines Datensatzes bei Zenodo, der als Artikel klassifiziert und getagged ist.
Abb. 3: Paul Taillie (2019). Bird Community Shifts Associated with Saltwater Exposure in Coastal Forests at the Leading Edge of Rising Sea Level; https://doi.org/10.5281/zenodo.2548860.

Und es gibt weitere Strategien, um nicht gefunden zu werden. Stellen Sie sich vor, Sie spielen Verstecken oder sind auf der Flucht. In beiden Fällen lautet die wichtigste Regel: Halten Sie sich keinesfalls dort auf, wo man Sie erwarten würde. Was heißt das konkret für unser Thema? Fachliche Repositorien sind natürlich tabu, da findet man Ihre Daten sofort. Verstecken Sie Ihre Daten lieber auf Ihrer eigenen Homepage – da kommen nur selten Suchmaschinen, Indexdienste etc. vorbei. Gerne können Sie Ihre Daten auch regelmäßig verschieben, ein Relaunch der Uni-Seite kann dabei hilfreich sein. Seien Sie das Schlitzohr, das beim Versteckspiel heimlich den Platz wechselt! 

Der Kardinalfehler im Versteckspiel ist natürlich: immer das gleiche Versteck zu wählen und am besten auch noch laut „hier bin ich“ zu rufen – im FDM-Kontext heißt das „persistente Identifikatoren“, insbesondere Digital Object Identifier (DOI). Lassen Sie da bloß die Finger von!

Aber was tun, wenn es z.B. an Ihrem Institut Vorgaben gibt, Daten etwa auf einem gemeinsamen Laufwerk abzulegen? Perfide, denn die Konkurrenz aus dem Büro nebenan lauert vermutlich schon. Auch hier gibt es einen kleinen, aber wirkungsvollen Trick: wählen Sie die Dateibenennung möglichst uneinheitlich und konfus. Ihre Konkurrenz soll schließlich nicht bereits dem Dateinamen entnehmen können, welcher Datenschatz darin verborgen liegt. Klassisches Hilfsmittel ist hier das sogenannte „random-suffixing„: „-final“, „-test“ „-temp“, ergänzt um ein paar willkürliche Abkürzungen und Versionsnummern, möglichst unsystematisch kombiniert. Freilich macht es das für Sie selbst komplizierter, sich in Ihrem eigenen Datendschungel zurechtzufinden, aber für alle anderen eben auch.

Wenn Ihre Daten dann doch gefunden werden, stellen Sie sicher, dass eine Nutzung möglichst schwer ist. Auch dafür gibt es verschiedene Strategien, und das bringt uns zu

Lektion 2: Rechtliche Nebelbomben

Urheberrecht ist Ihre neue Spielwiese. Werfen Sie rechtliche Verwirrungsgranaten: Beanspruchen Sie vorsichtshalber immer alle Rechte für sich, ganz gleich, ob die Daten schutzfähig sind oder nicht. Ein keckes © oder ein drohendes „all rights reserved“ dürfte schon einige abschrecken. Noch besser: Geben Sie einfach gar nichts an. Die Rechtsunsicherheit, die Sie damit schaffen, kann wunderbar zermürbend wirken. Denn selbst wenn man sich an Ihre Vorgaben halten wollte… man kennt sie ja gar nicht. 

Und um Himmels willen: Lassen Sie die Finger von freien Lizenzen wie Creative Commons, ebenso von spezifischen Repositorien, in denen Sie Vorgaben zur Nachnutzung technisch umsetzen, wie etwa in Abb. 4. Stellen Sie sich vor, jemand hält sich daran und vergreift sich ganz legal an Ihren Daten. Das kommt natürlich nicht in Frage!

Screenshot eines Datennehmervertrags von psychdata
Abb. 4: https://www.psychdata.de/index.php?main=take&sub=vertrag.
Lektion 3: Technischer Hindernisparcours

Aber verlassen Sie sich nicht allein auf rechtliche Stolpersteine. Schöpfen Sie auch das Potenzial technischer Hürden und mangelnder Interoperabilität aus! Das klingt etwas komplizierter, als es ist. Denken Sie an einen Playmobil-Menschen im Duplo-Auto: Interoperabilität? Fehlanzeige!

Da setzen wir an: denn Interoperabilität wird in der Regel über die Verwendung von Standards sichergestellt. Aber Standards sind bekanntlich wie Zahnbürsten: jeder will eine haben, aber keiner will die des anderen benutzen. Das zeigt schon, in welche Richtung wir hier denken müssen: Entwickeln Sie Ihre eigenen Standards, proprietäre Formate und Software. Je unzugänglicher, desto besser. Wenn Sie Leute von der Nutzung ausschließen wollen, orientieren Sie sich an den Großmeistern dieser Disziplin: Bill Gates, Steve Jobs und andere zeigen, wie das gehen kann. Auch gerätespezifische Formate sind hilfreich: Selbst wenn man die Daten heute noch nutzen kann – zwei oder drei Versionen später bekommen Sie nur noch Datensalat. 

Das Thema der Unzugänglichkeit bringt uns dann auch schon zur letzten Lektion. Denn falls das alles noch nicht hilft, machen Sie sich klar: 

Lektion 4: Geheimwissen ist Macht!

Häufig hört man: „Warum soll ich meine Daten veröffentlichen, die versteht ohnehin niemand?!“ Gut so! Und dass das so bliebt, liegt allein in Ihren Händen: 

Als Datenurheber*in besitzen Sie den Stein von Rosetta. Im Datenkontext sind oft eine einfache readme-Datei oder ein Codebook die Voraussetzung dafür, eine kryptisch beschriftete Tabelle interpretieren zu können. Diese Dateien sind Ihr Herrschaftswissen… und dass Sie das nicht teilen dürfen, versteht sich wohl von selbst.

Fazit: Die Kunst des Nicht-Teilens

Es hat sich gezeigt: „Datenveröffentlichung“ muss nicht gleich OPEN DATA sein. Auch veröffentlichte Daten können Sie mit ein paar Kniffen effektiv vor Nachnutzung schützen:

  • Vermeiden Sie etablierte Strukturen und Standards
  • Vermeiden Sie offene Lizenzen, Software und Formate
  • Vermeiden Sie jede unnötige Information und Dokumentation

Sie merken, wie einfach das eigentlich ist: es geht weniger darum, was man tut, als darum, was man nicht tut! Und damit schlagen Sie im Grunde zwei Fliegen mit einer Klappe. Denn Datenaufbereitung ist zweifelsohne ein Zeitfresser, und Nicht-Tun spart wertvolle Ressourcen. 

Sollte Sie das alles NICHT überzeugt haben und Sie planen, Ihre Daten trotzdem der Wissenschaft bzw. Öffentlichkeit so zur Verfügung zu stellen, dass sie auch verstanden und genutzt werden können, steht Ihnen das Team des Forschungsdatenservice zur Verfügung.

Aber mal ehrlich: Wer will schon seine Daten teilen, wenn man sie so wunderbar für sich behalten kann?

Ein Beitrag von Arvid Deppe


Creative Commons Lizenzvertrag

Dieser Beitrag – ausgenommen Zitate und anderweitig gekennzeichnete Teile – ist unter der Creative-Commons-Lizenz Namensnennung International (CC BY 4.0) lizenziert.
Creative Commons Namensnennung 4.0 International Lizenz.


Ihre E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind markiert *

*