-
Notifications
You must be signed in to change notification settings - Fork 1
F.A.I.R. Data
- Einleitung
- Die F.A.I.R.-Prinzipien
- Unterschied zwischen Open Data und F.A.I.R. Data
- Warum sollte man die Daten F.A.I.R. machen?
- Bedeutung der F.A.I.R.-Prinzipien allgemein
- Bedeutung der F.A.I.R.-Prinzipien in der Wissenschaft
- Wie macht man Daten F.A.I.R.?
- FAIRification-Prozess
- Anwendung der F.A.I.R.-Prinzipien auf DL-Modelle für EO-Daten
- Schlussfolgerung
- Quellen
“Data that is loved tends to survive.”
— Kurt Bollacker
Die F.A.I.R.-Prinzipien (Findable, Accessible, Interoperable, Reusable) wurden 2016 entwickelt, um den Umgang mit wissenschaftlichen Daten zu verbessern und deren Nutzung in der Forschung zu erleichtern. In einer Zeit, in der Datenmengen und -komplexität stetig wachsen, sind sie von entscheidender Bedeutung.
Prinzip | Beschreibung |
---|---|
Findable (Auffindbar) |
F1. (Meta-)Daten werden mit einer weltweit eindeutigen und dauerhaften Kennung versehen F2. Daten werden mit umfangreichen Metadaten beschrieben (definiert durch R1 unten) F3. Metadaten enthalten eindeutig und explizit den Identifikator der Daten, die sie beschreiben F4. (Meta-)Daten sind in einer durchsuchbaren Ressource registriert oder indexiert |
Accessible (Zugänglich) |
A1. (Meta-)Daten sind anhand ihrer Kennung über ein standardisiertes Kommunikationsprotokoll abrufbar A1.1 das Protokoll ist offen, frei und universell implementierbar A1.2 das Protokoll ermöglicht ein Authentifizierungs- und Autorisierungsverfahren, falls erforderlich A2. die Metadaten sind zugänglich, auch wenn die Daten nicht mehr verfügbar sind |
Interoperable (Interoperabel) |
I1. (Meta-)Daten verwenden eine formale, zugängliche, gemeinsame und breit anwendbare Sprache zur Wissensdarstellung I2. (Meta-)Daten verwenden Vokabulare, die den FAIR-Grundsätzen folgen I3. (Meta-)Daten enthalten qualifizierte Verweise auf andere (Meta-)Daten |
Reusable (Wiederverwendbar) |
R1. (Meta-)Daten sind mit einer Vielzahl von genauen und relevanten Attributen reichhaltig beschrieben R1.1. (Meta-)Daten werden mit einer klaren und zugänglichen Datennutzungslizenz freigegeben R1.2. (Meta-)Daten sind mit einer detaillierten Dokumentation über Herkunft, Entstehungsprozess und sämtliche Änderungen verbunden R1.3. (Meta-)Daten entsprechen den für den Bereich relevanten Gemeinschaftsstandards |
Ein Forscher sucht nach historischen Klimadaten für Europa, um die Auswirkungen des Klimawandels zu analysieren. Dank der umfangreichen Metadaten und der eindeutigen Kennungen sind die Daten leicht in einer öffentlich zugänglichen Datenbank zu finden. Diese Auffindbarkeit ermöglicht es, die benötigten Informationen schnell und präzise zu lokalisieren.
Nachdem der Forscher die Klimadaten gefunden hat, kann er sie über ein standardisiertes Protokoll direkt herunterladen. Auch wenn einige Daten authentifiziert werden müssen, sind die Metadaten jederzeit zugänglich, selbst wenn die eigentlichen Daten vorübergehend nicht verfügbar sind.
Die Klimadaten sind so strukturiert, dass sie mit anderen geowissenschaftlichen Daten wie Luftqualitäts- oder Niederschlagsdaten kombiniert werden können. Dies wird durch die Verwendung gemeinsamer und zugänglicher Vokabulare sowie standardisierter Datenformate erreicht.
Die Klimadaten sind mit klaren Lizenzinformationen und umfassenden Dokumentationen versehen. Dadurch ist sichergestellt, dass der Forscher die Daten für zukünftige Analysen verwenden und mit anderen teilen kann, ohne gegen Nutzungsbedingungen zu verstoßen.
- Open Data kann von jedem, überall und für jede Art von Nutzung frei verwendet, weitergegeben und weiterentwickelt werden.
- F.A.I.R.-Prinzipien bieten bewährte Praktiken für das Teilen von Daten unter Berücksichtigung ethischer, rechtlicher oder vertraglicher Beschränkungen. Bei Daten, die persönliche Informationen oder Urheberrechte enthalten, müssen die entsprechenden Vorschriften eingehalten werden. Selbst wenn die Daten nicht offen geteilt werden können, sollte eine Beschreibung veröffentlicht werden, um interessierten Forschenden die Anforderung einer Nutzungserlaubnis zu ermöglichen.
- Sicherung von Integrität und Reproduzierbarkeit in der Forschung.
- Gültig als Standard für Forschungsdatenmanagement (RDM).
- Förderung der Datenintegration innerhalb und zwischen Disziplinen zur Unterstützung globaler Herausforderungen.
- Viele Förderer (z. B. UN, WHO, DFG) haben die Prinzipien in ihre Richtlinien aufgenommen.
- Öffentliches Vertrauen: Die F.A.I.R.-Prinzipien erhöhen die Rechenschaftspflicht in öffentlich finanzierter Forschung und stärken das Vertrauen in den Umgang mit Steuergeldern.
- Ethisches Datenmanagement: Förderung ethischer Überlegungen im Datenmanagement, insbesondere im Hinblick auf sensible Daten, während die Einhaltung ethischer und rechtlicher Standards gewährleistet wird.
- Interoperabilität und Integration: Standardisierte Formate und Vokabulare erleichtern die Datenintegration über verschiedene Fachgebiete hinweg, was entscheidend für die Bewältigung globaler Herausforderungen ist (z. B. Klimawandel, Gesundheitskrisen).
- Nachhaltige Entwicklung: Verbesserung des Datenzugangs und der Wiederverwendbarkeit unterstützt die Erreichung nachhaltiger Entwicklungsziele, indem wertvolle Daten für Forschung und politische Entscheidungsfindung verfügbar gemacht werden.
- Anpassungsfähigkeit an neue Technologien: Die F.A.I.R.-Prinzipien helfen Organisationen, sich an neue Technologien und Datenumgebungen anzupassen, um sicherzustellen, dass Daten in einer sich schnell verändernden Landschaft nützlich und zugänglich bleiben.
- Transparenz und Reproduzierbarkeit: Sicherstellung, dass Forschungsergebnisse überprüft und nachvollzogen werden können.
- Förderung der Zusammenarbeit: Verbesserte Datenzugänglichkeit und -nutzung erleichtern den Austausch und die Zusammenarbeit zwischen Forschern.
- Compliance: Viele Förderorganisationen und wissenschaftliche Zeitschriften verlangen die Einhaltung der F.A.I.R.-Prinzipien.
Das Three-Point-Framework formuliert die wesentlichen Schritte auf dem Weg zu einem globalen Internet aus F.A.I.R.-Daten und -Diensten. Hierdurch sollen Daten auffindbar, zugänglich, interoperabel und wiederverwendbar gemacht werden.
Dieses Framework bietet Stakeholdern praktische Anleitungen, wie sie F.A.I.R. werden können. Das Framework maximiert die Wiederverwendung vorhandener Ressourcen, erhöht die Interoperabilität und fördert die schnelle Annäherung an Standards und Technologien für F.A.I.R.-Daten und -Dienste.
- Metadata for Machines (M4M) Workshops: Diese Workshops unterstützen dabei, domänenspezifische Metadatenanforderungen und Richtlinien in maschinenlesbare Metadaten zu überführen.
- FAIR Implementation Profile (FIP): Das FIP dient als Leitfaden für die Auswahl und Konfiguration der F.A.I.R.-Infrastruktur, wie z. B. FAIR Data Points (FDP) und FAIR Digital Objects (FDO), die Teil eines globalen Internets für F.A.I.R.-Daten und -Dienste sind.
- FAIR Data Points: Sie unterstützen den Aufbau und die Verteilung von F.A.I.R.-Daten und -Diensten weltweit.
Das Framework bietet Stakeholdern einen klaren Überblick darüber, was „F.A.I.R. werden“ für sie in der Praxis bedeutet, und ermöglicht eine koordinierte, skalierbare und schnelle Integration in die entstehende F.A.I.R.-Landschaft.
Die F.A.I.R.-Prinzipien gelten für Metadaten, Daten und unterstützende Infrastrukturen (z. B. Suchmaschinen). Während die Anforderungen an Auffindbarkeit und Zugänglichkeit meist auf der Metadatenebene erfüllt werden können, erfordern Interoperabilität und Wiederverwendbarkeit intensivere Arbeit auf der Datenebene. Der unten beschriebene FAIRification-Prozess, wie ihn GO FAIR nutzt, fokussiert sich auf die Daten, beschreibt aber auch die notwendigen Arbeiten an den Metadaten.
- Nicht-FAIR-Daten abrufen: Zugang zu den zu FAIRifizierenden Daten erhalten.
- Analyse der Daten: Untersuchung der Inhalte und Struktur der Daten: Welche Konzepte sind enthalten? Wie sind die Daten strukturiert? Unterschiedliche Datenstrukturen erfordern verschiedene Analysemethoden.
- Semantisches Modell definieren: Ein semantisches Modell für das Dataset festlegen, das die Bedeutung der enthaltenen Entitäten und Relationen beschreibt. Es ist hilfreich, vorhandene Modelle und Vokabulare zu recherchieren und zu verwenden.
- Daten verlinkbar machen: Anwendung des semantischen Modells, um die Daten verlinkbar zu gestalten und so die Interoperabilität und Wiederverwendbarkeit zu fördern. Dies geschieht oft mithilfe von Semantic Web- und Linked Data-Technologien.
- Lizenz zuweisen: Lizenzinformationen sind Teil der Metadaten, jedoch wird die Lizenzzuweisung als eigenständiger Schritt betrachtet, da das Fehlen einer expliziten Lizenz die Wiederverwendung verhindern kann.
- Metadaten definieren: Metadaten unterstützen alle Aspekte von F.A.I.R. und sollten umfassend und aussagekräftig sein.
- F.A.I.R.-Ressource bereitstellen: Die F.A.I.R.-Datenressource (einschließlich Metadaten und Lizenz) wird bereitgestellt, damit die Metadaten durch Suchmaschinen indexiert und die Daten abgerufen werden können.
Die F.A.I.R.-Prinzipien für Deep-Learning-Modelle (DL) in der Erdbeobachtung (EO) fördern Open Science und Big Data. Die zunehmende Nutzung von freier und offener Software (FOSS) und die Entwicklung öffentlicher Evaluationsplattformen ermöglichen es, Datenprodukte transparent und effizient zu erstellen. Bibliotheken wie Open RS und Plattformen wie die IEEE GRSS bieten moderne Benchmark-Datensätze, die den Herausforderungen von Big Data gerecht werden.
Die Bereitstellung von Ressourcen wie trainierten Modellen und experimentellen Designs unterstützt die Verbreitung anspruchsvoller Modellierungsansätze, bringt die EO- und KI-Gemeinschaften näher zusammen und fördert die Wiederverwendbarkeit. Durch die Veröffentlichung in öffentlich zugänglichen Formaten wird unnötiger Rechenaufwand reduziert.
Ein standardisiertes Datenmodell für Trainingsdaten in einer webbasierten räumlichen Dateninfrastruktur (SDI) erleichtert die Einhaltung der F.A.I.R.-Prinzipien, verbessert die Dokumentation und Nutzung georäumlicher Trainingsdaten und entspricht den Standards des Open Geospatial Consortiums (OGC).
- Systematische Dokumentation und Bereitstellung in durchsuchbaren Repositories
- Einhaltung von Standards für Metadaten, Lizenzen und Dokumentation von Herkunft, Entstehungsprozess und sämtlichen Änderungen
- Förderung nachhaltiger Nutzung und wissenschaftlicher Zusammenarbeit
Die F.A.I.R.-Prinzipien sind ein wesentlicher Bestandteil des wissenschaftlichen Fortschritts, da sie die Nutzung und den Austausch von Daten und Modellen optimieren. Die Implementierung dieser Prinzipien kann zur effizienteren und kollaborativen Nutzung wissenschaftlicher Ressourcen beitragen. Zusammengefasst stellen die F.A.I.R.-Prinzipien sicher, dass Daten nicht nur für aktuelle Forschungsfragen, sondern auch für zukünftige Generationen von Forschenden verfügbar und verständlich bleiben.
- Zitat Bollacker
- F.A.I.R. Prinzipien
- How to go F.A.I.R.
- Grafik zum Three-Point-Framework
- FAIRification Process
- YouTube: How to be F.A.I.R. with your Data
- Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., et al. (2016). The FAIR guiding principles for scientific data management and stewardship. Scientific Data, 3, 160018. https://doi.org/10.1038/sdata.2016.18
- Engelhardt, C. (2022). How to be FAIR with your data. https://doi.org/10.17875/gup2022-1915
- Dimitrovski, I., Kitanovski, I., Kocev, D., & Simidjievski, N. (2023). Current trends in deep learning for Earth Observation: An open-source benchmark arena for image classification. ISPRS Journal of Photogrammetry and Remote Sensing, 197, 18-35. https://doi.org/10.1016/j.isprsjprs.2023.01.014
- Persello, C., Wegner, J. D., Hänsch, R., Tuia, D., Ghamisi, P., & Koeva, M. (2022). Deep learning and Earth observation to support the sustainable development goals: Current approaches, open challenges, and future opportunities. IEEE Geoscience and Remote Sensing Magazine, 10(2), 172-200. https://doi.org/10.1109/MGRS.2021.3136100
- Yue, P., Shangguan, B., Hu, L., Jiang, L., Zhang, C., Cao, Z., & Pan, Y. (2022). Towards a training data model for artificial intelligence in earth observation. International Journal of Geographical Information Science, 36(11), 2113–2137. https://doi.org/10.1080/13658816.2022.2087223
stac client for python:
import json # Zur Anzeige der Abfrageergebnisse import pystac import requests # Für Interaktion mit APIs
from pystac import Catalog, get_stac_version # Erweiterung von pystac zum Einbinden von bestehenden Catalogs from pystac_client import Client # Erweiterung von pystac u.a. zum suchen in STACs
root_catalog = Catalog.from_file('https://raw.githubusercontent.com/stac-utils/pystac/main/docs/example-catalog/catalog.json') root_catalog.describe() # Aufbau des Catalogs
print(f"ID: {root_catalog.id}") print(f"Title: {root_catalog.title or 'N/A'}") print(f"Description: {root_catalog.description or 'N/A'}")
collections = list(root_catalog.get_collections()) # get_collections() und weitere Func. im Handout erläutert print(f"Number of collections: {len(collections)}") # Anzahl der vorhandenen Collections print("Collections IDs:") for collection in collections: print(f"- {collection.id}")
items = list(root_catalog.get_all_items()) print(f"Number of items: {len(items)}") for item in items: print(f"- {item.id}")
item = root_catalog.get_item("LC80140332018166LGN00", recursive=True) # Einzelenes Item, weitere Benutzung im Folgenden
print(item.geometry) print(item.bbox) print(item.datetime) print(item.collection_id) item.get_collection() # Abfrage, zu welcher Collection das item gehört
print(item.common_metadata.instruments) print(item.common_metadata.platform) print(item.common_metadata.gsd)
for asset_key in item.assets: #.assets als Func zur Abfrage aller Assets eines Items asset = item.assets[asset_key] print('{}: {} ({})'.format(asset_key, asset.href, asset.media_type)) # asset-key,(..) werden in den String {},(..) eingesetzt
asset = item.assets['B3'] print(asset.to_dict()) # Ähnlich zur Abfrage mit .format
for asset_key in item.assets: asset = item.assets[asset_key] asset_url = asset.href file_name = asset_key + '.' + asset.media_type.split('/')[-1]
# Fragt die Daten von der API ab
response = requests.get(asset_url) # Nutzung der requests-Library
# Speichere die Datei
with open(file_name, 'wb') as f:
f.write(response.content)
print(f'{file_name} heruntergeladen.')
catalog_url = 'https://planetarycomputer.microsoft.com/api/stac/v1' client = Client.open(catalog_url) # Client interagiert mit API-Endpunkt (URL)
search = client.search( collections=['sentinel-2-l2a'], bbox=[-47.02148, -17.35063, -42.53906, -12.98314], datetime='2023-01-01/2023-01-31', limit = 10 )
items = list(search.items()) print(len(items)) print(items) item = items[5] print(f"Item ID: {item.id}") print(f"Item datetime: {item.datetime}")
for asset_key, asset in item.assets.items(): print(f"Asset Key: {asset_key}") print(f"Asset URL: {asset.href}") print(f"Asset Media Type: {asset.media_type}")
stac client for R:
install.packages("rstac") install.packages("sf") install.packages("terra") install.packages("tibble") library(terra) library(sf) library(tibble) library(rstac)
stac_url <- "https://planetarycomputer.microsoft.com/api/stac/v1"
s_obj <- stac(stac_url) str(s_obj)
get_request(s_obj)
s_obj %>% get_request()
conformance_classes <- s_obj %>% conformance() %>% get_request() conformance_classes
collections_query <- s_obj %>% collections()
collections_query %>% get_request()
stac_search( q = s_obj, collections = "usgs-lcmap-conus-v13", datetime = "2021-01-01/2021-12-31", limit = 10 ) %>% get_request()
ashe <- read_sf(system.file("shape/nc.shp", package = "sf"))[1, ] plot(st_geometry(ashe))
ashe_bbox <- ashe %>% st_transform(4326) %>% st_bbox() ashe_bbox
stac_query <- stac_search( q = s_obj, collections = "usgs-lcmap-conus-v13", bbox = ashe_bbox, datetime = "2021-01-01/2021-12-31", limit = 10 ) %>% get_request() stac_query
signed_stac_query <- items_sign( stac_query, sign_planetary_computer() # Authentifizierung beim Planetary Computer ) signed_stac_query
output_directory <- "C:/Users/lraeu/OneDrive/Desktop/Geosoftware II/geosoft2-2024/data" assets_download(signed_stac_query, "lcpri", output_dir = output_directory, overwrite = TRUE) output_file <- file.path("C:/Users/lraeu/OneDrive/Desktop/Geosoftware II/geosoft2-2024/data/lcmap/CU/V13/025011/2021/LCMAP_CU_025011_2021_20220721_V13_CCDC/LCMAP_CU_025011_2021_20220629_V13_LCPRI.tif") %>% rast() plot(output_file) rast("C:/Users/lraeu/OneDrive/Desktop/Geosoftware II/geosoft2-2024/data/B1.tiff")
ashe %>% st_transform(st_crs(output_file)) %>% st_geometry() %>% plot(add = TRUE, lwd = 3)