Skip to content

F.A.I.R. Data

Maximilian Reiner edited this page Oct 25, 2024 · 1 revision

@amlusc

F.A.I.R. Data

Inhaltsverzeichnis

  1. Einleitung
  2. Die F.A.I.R.-Prinzipien
  3. Unterschied zwischen Open Data und F.A.I.R. Data
  4. Warum sollte man die Daten F.A.I.R. machen?
  5. Bedeutung der F.A.I.R.-Prinzipien allgemein
  6. Bedeutung der F.A.I.R.-Prinzipien in der Wissenschaft
  7. Wie macht man Daten F.A.I.R.?
  8. FAIRification-Prozess
  9. Anwendung der F.A.I.R.-Prinzipien auf DL-Modelle für EO-Daten
  10. Schlussfolgerung
  11. Quellen

Einleitung

“Data that is loved tends to survive.”
Kurt Bollacker

Die F.A.I.R.-Prinzipien (Findable, Accessible, Interoperable, Reusable) wurden 2016 entwickelt, um den Umgang mit wissenschaftlichen Daten zu verbessern und deren Nutzung in der Forschung zu erleichtern. In einer Zeit, in der Datenmengen und -komplexität stetig wachsen, sind sie von entscheidender Bedeutung.

Die F.A.I.R.-Prinzipien

F.A.I.R. Data

Prinzip Beschreibung
Findable (Auffindbar) F1. (Meta-)Daten werden mit einer weltweit eindeutigen und dauerhaften Kennung versehen
F2. Daten werden mit umfangreichen Metadaten beschrieben (definiert durch R1 unten)
F3. Metadaten enthalten eindeutig und explizit den Identifikator der Daten, die sie beschreiben
F4. (Meta-)Daten sind in einer durchsuchbaren Ressource registriert oder indexiert
Accessible (Zugänglich) A1. (Meta-)Daten sind anhand ihrer Kennung über ein standardisiertes Kommunikationsprotokoll abrufbar
A1.1 das Protokoll ist offen, frei und universell implementierbar
A1.2 das Protokoll ermöglicht ein Authentifizierungs- und Autorisierungsverfahren, falls erforderlich
A2. die Metadaten sind zugänglich, auch wenn die Daten nicht mehr verfügbar sind
Interoperable (Interoperabel) I1. (Meta-)Daten verwenden eine formale, zugängliche, gemeinsame und breit anwendbare Sprache zur Wissensdarstellung
I2. (Meta-)Daten verwenden Vokabulare, die den FAIR-Grundsätzen folgen
I3. (Meta-)Daten enthalten qualifizierte Verweise auf andere (Meta-)Daten
Reusable (Wiederverwendbar) R1. (Meta-)Daten sind mit einer Vielzahl von genauen und relevanten Attributen reichhaltig beschrieben
R1.1. (Meta-)Daten werden mit einer klaren und zugänglichen Datennutzungslizenz freigegeben
R1.2. (Meta-)Daten sind mit einer detaillierten Dokumentation über Herkunft, Entstehungsprozess und sämtliche Änderungen verbunden
R1.3. (Meta-)Daten entsprechen den für den Bereich relevanten Gemeinschaftsstandards

Beispiel für Anwendung der F.A.I.R.-Prinzipien

Findable (Auffindbar)

Ein Forscher sucht nach historischen Klimadaten für Europa, um die Auswirkungen des Klimawandels zu analysieren. Dank der umfangreichen Metadaten und der eindeutigen Kennungen sind die Daten leicht in einer öffentlich zugänglichen Datenbank zu finden. Diese Auffindbarkeit ermöglicht es, die benötigten Informationen schnell und präzise zu lokalisieren.

Accessible (Zugänglich)

Nachdem der Forscher die Klimadaten gefunden hat, kann er sie über ein standardisiertes Protokoll direkt herunterladen. Auch wenn einige Daten authentifiziert werden müssen, sind die Metadaten jederzeit zugänglich, selbst wenn die eigentlichen Daten vorübergehend nicht verfügbar sind.

Interoperable (Interoperabel)

Die Klimadaten sind so strukturiert, dass sie mit anderen geowissenschaftlichen Daten wie Luftqualitäts- oder Niederschlagsdaten kombiniert werden können. Dies wird durch die Verwendung gemeinsamer und zugänglicher Vokabulare sowie standardisierter Datenformate erreicht.

Reusable (Wiederverwendbar)

Die Klimadaten sind mit klaren Lizenzinformationen und umfassenden Dokumentationen versehen. Dadurch ist sichergestellt, dass der Forscher die Daten für zukünftige Analysen verwenden und mit anderen teilen kann, ohne gegen Nutzungsbedingungen zu verstoßen.

Unterschied zwischen Open Data und F.A.I.R. Data

  • Open Data kann von jedem, überall und für jede Art von Nutzung frei verwendet, weitergegeben und weiterentwickelt werden.
  • F.A.I.R.-Prinzipien bieten bewährte Praktiken für das Teilen von Daten unter Berücksichtigung ethischer, rechtlicher oder vertraglicher Beschränkungen. Bei Daten, die persönliche Informationen oder Urheberrechte enthalten, müssen die entsprechenden Vorschriften eingehalten werden. Selbst wenn die Daten nicht offen geteilt werden können, sollte eine Beschreibung veröffentlicht werden, um interessierten Forschenden die Anforderung einer Nutzungserlaubnis zu ermöglichen.

Warum sollte man Daten F.A.I.R. machen?

  • Sicherung von Integrität und Reproduzierbarkeit in der Forschung.
  • Gültig als Standard für Forschungsdatenmanagement (RDM).
  • Förderung der Datenintegration innerhalb und zwischen Disziplinen zur Unterstützung globaler Herausforderungen.
  • Viele Förderer (z. B. UN, WHO, DFG) haben die Prinzipien in ihre Richtlinien aufgenommen.

Bedeutung der F.A.I.R.-Prinzipien allgemein

  • Öffentliches Vertrauen: Die F.A.I.R.-Prinzipien erhöhen die Rechenschaftspflicht in öffentlich finanzierter Forschung und stärken das Vertrauen in den Umgang mit Steuergeldern.
  • Ethisches Datenmanagement: Förderung ethischer Überlegungen im Datenmanagement, insbesondere im Hinblick auf sensible Daten, während die Einhaltung ethischer und rechtlicher Standards gewährleistet wird.
  • Interoperabilität und Integration: Standardisierte Formate und Vokabulare erleichtern die Datenintegration über verschiedene Fachgebiete hinweg, was entscheidend für die Bewältigung globaler Herausforderungen ist (z. B. Klimawandel, Gesundheitskrisen).
  • Nachhaltige Entwicklung: Verbesserung des Datenzugangs und der Wiederverwendbarkeit unterstützt die Erreichung nachhaltiger Entwicklungsziele, indem wertvolle Daten für Forschung und politische Entscheidungsfindung verfügbar gemacht werden.
  • Anpassungsfähigkeit an neue Technologien: Die F.A.I.R.-Prinzipien helfen Organisationen, sich an neue Technologien und Datenumgebungen anzupassen, um sicherzustellen, dass Daten in einer sich schnell verändernden Landschaft nützlich und zugänglich bleiben.

Bedeutung der F.A.I.R.-Prinzipien in der Wissenschaft

  • Transparenz und Reproduzierbarkeit: Sicherstellung, dass Forschungsergebnisse überprüft und nachvollzogen werden können.
  • Förderung der Zusammenarbeit: Verbesserte Datenzugänglichkeit und -nutzung erleichtern den Austausch und die Zusammenarbeit zwischen Forschern.
  • Compliance: Viele Förderorganisationen und wissenschaftliche Zeitschriften verlangen die Einhaltung der F.A.I.R.-Prinzipien.

Wie macht man Daten F.A.I.R.?

Das Three-Point-Framework formuliert die wesentlichen Schritte auf dem Weg zu einem globalen Internet aus F.A.I.R.-Daten und -Diensten. Hierdurch sollen Daten auffindbar, zugänglich, interoperabel und wiederverwendbar gemacht werden.

Das Three-Point FAIRification Framework

Dieses Framework bietet Stakeholdern praktische Anleitungen, wie sie F.A.I.R. werden können. Das Framework maximiert die Wiederverwendung vorhandener Ressourcen, erhöht die Interoperabilität und fördert die schnelle Annäherung an Standards und Technologien für F.A.I.R.-Daten und -Dienste.

Die drei Schritte des Frameworks:

Quelle: GO FAIR

  1. Metadata for Machines (M4M) Workshops: Diese Workshops unterstützen dabei, domänenspezifische Metadatenanforderungen und Richtlinien in maschinenlesbare Metadaten zu überführen.
  2. FAIR Implementation Profile (FIP): Das FIP dient als Leitfaden für die Auswahl und Konfiguration der F.A.I.R.-Infrastruktur, wie z. B. FAIR Data Points (FDP) und FAIR Digital Objects (FDO), die Teil eines globalen Internets für F.A.I.R.-Daten und -Dienste sind.
  3. FAIR Data Points: Sie unterstützen den Aufbau und die Verteilung von F.A.I.R.-Daten und -Diensten weltweit.

Das Framework bietet Stakeholdern einen klaren Überblick darüber, was „F.A.I.R. werden“ für sie in der Praxis bedeutet, und ermöglicht eine koordinierte, skalierbare und schnelle Integration in die entstehende F.A.I.R.-Landschaft.

FAIRification-Prozess

Die F.A.I.R.-Prinzipien gelten für Metadaten, Daten und unterstützende Infrastrukturen (z. B. Suchmaschinen). Während die Anforderungen an Auffindbarkeit und Zugänglichkeit meist auf der Metadatenebene erfüllt werden können, erfordern Interoperabilität und Wiederverwendbarkeit intensivere Arbeit auf der Datenebene. Der unten beschriebene FAIRification-Prozess, wie ihn GO FAIR nutzt, fokussiert sich auf die Daten, beschreibt aber auch die notwendigen Arbeiten an den Metadaten.

Schritte des FAIRification-Prozesses

FAIRification Prozess

  1. Nicht-FAIR-Daten abrufen: Zugang zu den zu FAIRifizierenden Daten erhalten.
  2. Analyse der Daten: Untersuchung der Inhalte und Struktur der Daten: Welche Konzepte sind enthalten? Wie sind die Daten strukturiert? Unterschiedliche Datenstrukturen erfordern verschiedene Analysemethoden.
  3. Semantisches Modell definieren: Ein semantisches Modell für das Dataset festlegen, das die Bedeutung der enthaltenen Entitäten und Relationen beschreibt. Es ist hilfreich, vorhandene Modelle und Vokabulare zu recherchieren und zu verwenden.
  4. Daten verlinkbar machen: Anwendung des semantischen Modells, um die Daten verlinkbar zu gestalten und so die Interoperabilität und Wiederverwendbarkeit zu fördern. Dies geschieht oft mithilfe von Semantic Web- und Linked Data-Technologien.
  5. Lizenz zuweisen: Lizenzinformationen sind Teil der Metadaten, jedoch wird die Lizenzzuweisung als eigenständiger Schritt betrachtet, da das Fehlen einer expliziten Lizenz die Wiederverwendung verhindern kann.
  6. Metadaten definieren: Metadaten unterstützen alle Aspekte von F.A.I.R. und sollten umfassend und aussagekräftig sein.
  7. F.A.I.R.-Ressource bereitstellen: Die F.A.I.R.-Datenressource (einschließlich Metadaten und Lizenz) wird bereitgestellt, damit die Metadaten durch Suchmaschinen indexiert und die Daten abgerufen werden können.

Anwendung der F.A.I.R.-Prinzipien auf DL-Modelle für EO-Daten

Die F.A.I.R.-Prinzipien für Deep-Learning-Modelle (DL) in der Erdbeobachtung (EO) fördern Open Science und Big Data. Die zunehmende Nutzung von freier und offener Software (FOSS) und die Entwicklung öffentlicher Evaluationsplattformen ermöglichen es, Datenprodukte transparent und effizient zu erstellen. Bibliotheken wie Open RS und Plattformen wie die IEEE GRSS bieten moderne Benchmark-Datensätze, die den Herausforderungen von Big Data gerecht werden.

Die Bereitstellung von Ressourcen wie trainierten Modellen und experimentellen Designs unterstützt die Verbreitung anspruchsvoller Modellierungsansätze, bringt die EO- und KI-Gemeinschaften näher zusammen und fördert die Wiederverwendbarkeit. Durch die Veröffentlichung in öffentlich zugänglichen Formaten wird unnötiger Rechenaufwand reduziert.

Ein standardisiertes Datenmodell für Trainingsdaten in einer webbasierten räumlichen Dateninfrastruktur (SDI) erleichtert die Einhaltung der F.A.I.R.-Prinzipien, verbessert die Dokumentation und Nutzung georäumlicher Trainingsdaten und entspricht den Standards des Open Geospatial Consortiums (OGC).

Ziele der F.A.I.R.-Prinzipien für DL-Modelle in EO:

  • Systematische Dokumentation und Bereitstellung in durchsuchbaren Repositories
  • Einhaltung von Standards für Metadaten, Lizenzen und Dokumentation von Herkunft, Entstehungsprozess und sämtlichen Änderungen
  • Förderung nachhaltiger Nutzung und wissenschaftlicher Zusammenarbeit

Schlussfolgerung

Die F.A.I.R.-Prinzipien sind ein wesentlicher Bestandteil des wissenschaftlichen Fortschritts, da sie die Nutzung und den Austausch von Daten und Modellen optimieren. Die Implementierung dieser Prinzipien kann zur effizienteren und kollaborativen Nutzung wissenschaftlicher Ressourcen beitragen. Zusammengefasst stellen die F.A.I.R.-Prinzipien sicher, dass Daten nicht nur für aktuelle Forschungsfragen, sondern auch für zukünftige Generationen von Forschenden verfügbar und verständlich bleiben.

Quellen