GDN: Geo Data Node

Wie eine Studie kürzlich zeigte, gehen 80% der Forschungsdaten etwa zwanzig Jahre nach ihrer Veröffentlichung in einer Fachzeitschrift für immer verloren  (Vines et al. 2013). Dabei sind gut aufbereitete Datensätze Schätze, die auch Jahrzehnte nach ihrer Erhebung noch zu innovativer Forschung beitragen können.

Zur Sicherstellung der Verfügbarkeit von Daten für die Forschung hat sich die Anwendung der FAIR-Prinzipien (Daten sollen auffindbar (Findable), zugänglich (Accessible), Interoperabel und wiederverwendbar (Reusable) sein) als Best Practice etabliert. Die Notwendigkeit eines auf diesen Prinzipien basierenden Datenmanagements wurde von vielen Förderorganisationen erkannt (z.B. EU, DFG, BMBF, NSF usw.) Bei Projektanträgen werden daher dementsprechend Pläne für das Datenmanagement und offener Zugang zu den Daten gefordert. Das GFZ hat 2016  als erstes Helmholtz-Zentrum  Grundsätze zum Umgang mit Forschungsdaten  verabschiedet. Obwohl eine Reihe von wissenschaftlichen Gruppen am GFZ bereits ihr Datenmanagement im Sinn der FAIR-Prinzipien und Richtlinien betreiben, bleibt die Umsetzung dieser Richtlinien in vielen Forschungseinheiten des GFZ und darüber hinaus eine Herausforderung.

Das vom Bundesministerium für Bildung und Forschung (BMBF) geförderte Projekt Geo Data Node soll diese Herausforderungen annehmen und die weitere Verbreitung der Grundsätze in den nächsten zwei Jahren vorantreiben. Durch den Austausch mit ähnlichen Initiativen wird das Projekt über das GFZ hinaus wirken. Das Projekt stützt sich auf Synergien aus der Zusammenarbeit von wissenschaftlichen Gruppen am GFZ, die beim Management von Daten weit fortgeschritten sind und entsprechende Praktiken etabliert haben, und der Abteilung Bibliotheks- und Informationsdienste (LIS). GEOFON und der Geophysikalische Instrumentenpool Potsdam (GIPP) verwenden bereits in hohem Maße standardisierte Daten und fungieren als Datenarchive. Von diesen Erfahrungen sollen im Rahmen des Projekts auch  andere Forschungsgruppen am GFZ profitieren. Gleichzeitig soll das bereits etablierte Datenmanagement erweitert und verbessert werden.

Das Projekt soll sich in zwei Hauptsträngen entwickeln: Das erste Arbeitspaket konzentriert sich auf Fallstudien für verschiedene Themenbereiche und berücksichtigt dabei sowohl wissenschaftliche Gruppen, die bereits einen hohen Standardisierungsgrad beim Umgang mit Forschungsdaten erreicht haben, als auch sogenannte "Long Tail"-Daten. Das zweite Arbeitspaket konzentriert sich beispielsweise auf die Entwicklung von Vorlagen für Datenmanagement-Pläne  für die Geowissenschaften, den Austausch zwischen den verschiedenen Disziplinen am GFZ und Outreach-Aktivitäten, um  Kommunikation  und Interaktion auch auf nationaler und internationaler Ebene zu ermöglichen.

Bibliotheks- und Informationsdienste (LIS)

LIS betreibt u.a.  GFZ Data Services - ein Domain-Daten-Repository - und bietet WissenschaftlerInnen Unterstützung bei der Veröffentlichung ihrer Daten. Innerhalb des Geo-Node-Projekts

  • wird LIS die Veröffentlichung von Daten für alle Forschungsthemen des GFZ fördern und ausbauen.
  • Darüber hinaus wird  LIS die Anwendung anderer Identifikatoren wie der International Geo Sample Number (IGSN) ausbauen.
  • Vorlagen für Datenmanagementpläne werden evaluiert und auf die Bedürfnisse der geowissenschaftlichen Community zugeschnitten.
  • Übertragbare Aspekte des Datenmanagement-Know-hows von GEOFON und GIPP sollen zunächst am GFZ, aber auch extern weitergegeben werden.
  • Die Projektleitung von GDN liegt bei LIS.

GIPP und GEOFON-Team werden zu folgenden Aufgaben beitragen:

  • Integration heterogener GIPP-Datensätze in ein möglichst einheitliches Format
  • Entwicklung von Datenmanagement-Musterplänen für seismische Datensätze im Archiv, die verschiedenee Anwendungsfälle umfassen (z.B. permanente Netzwerke: eigene, GFZ und Dritter; temporäre Netzwerke: Geräte vom GIPP, eigenen Instrumente des GFZ und Dritter; verschiedene Zugriffsmodalitäten: offen, zeitlich beschränkter Zugriff, gesperrt)
  • Entwicklung von Vorlagen für die am GFZ existierende Scientific Technical Report-Serie zur Ergänzung der archivierten Datensätze
  • Begutachtung der Verbindungen zwischen den bestehenden persistenten Identifikatoren zur besseren Auffindbarkeit aller zu einem Datensatz gehörigen Ressourcen
  • Zuordnung neuer persistenter Identifikatoren gemeinsame Arbeit an einer API zur Erzeugung von seismischen Metadaten