SK-ZAGDFG SK-ZAG

DFG-Senatskomission für Zukunftsaufgaben der GeowissenschaftenDFG-Senatskomission für Zukunftsaufgaben der Geowissenschaften
  1. Start >
  2. ..... >
  3. 12.3 – Daten- und Informationssysteme

12.3 – Daten- und Informationssysteme

Satellitenmessungen, Großrechner und hoch auflösende Analysemethoden produzieren täglich ungeheure Datenmengen. Diese Daten müssen besser zugänglich sein, damit sie zur Erforschung des Systems Erde beitragen können. Die Geowissenschaften müssen daher auf nationaler und internationaler Ebene ein einheitliches Datenmanagement aufbauen.

Information als Gut in der Wissensgesellschaft

Die Gesamtmenge, der Zuwachs und die Heterogenität der Informationen sind für die Wissenschaft eine enorme Herausfor­derung. Die Menge wissenschaftlicher Publikationen verdoppelt sich etwa alle 16 Jahre, in den Naturwissenschaften sogar alle zehn Jahre. Bei den wissenschaftlichen Daten ist der Zuwachs noch größer. In den ­Geo-, Bio- und Umweltwissenschaften verdoppelt sich die Datenmenge etwa alle drei Jahre. In den zurückliegenden Jahren ist es versäumt worden, diese Daten der Forschungsgemeinschaft allgemein zugänglich zu machen. Leider stehen den Forschern gegenwärtig nur wenige Prozent der in den letzten Jahrzehnten weltweit produzierten wissenschaftlichen Daten zur Verfügung. Hinzu kommen Objekte und Daten in Archiven, die teilweise noch in analoger Form vorliegen.

Informationsflut

Durch die eingeschränkte Nutzung ergeben sich Probleme: Weil wissenschaftliche Daten nicht auffindbar sind oder nicht zur Verfügung stehen, wird die interdisziplinäre und überregionale Forschung behindert. Die Forschung zum globalen Wandel benötigt zum Beispiel gute und ausführlich dokumentierte Daten. Existierende Datenbestände bleiben ungenutzt, da sie oftmals nur einem kleinen Kreis von Wissenschaftlern bekannt und zugänglich sind. Außerdem ist es häufig schwierig, veröffentlichte Ergebnisse zu verifizieren.

In den letzten Jahren haben Wissenschaftsmanagement und -politik grundsätzlich erkannt, dass die langfristige Sicherung und Zugänglichkeit wissenschaftlicher Daten ein Problem ist. Die DFG hat bereits 1998 darauf hingewiesen, dass wissenschaftliche Einrichtungen die Datengrundlagen ihrer wissenschaftlichen Publikationen in geeigneter Weise archivieren und verfügbar machen sollten. Auch der Wissenschaftsrat hebt 2001 hervor, wie wichtig es ist, dass digitale Informationen für die Wissenschaft verfügbar sind: „Der Wissenschaftsrat fordert die Wissenschafts- und Förderorganisationen auf, dafür Sorge zu tragen, das mit ihrer Förderung erzielte und dokumentierte wissenschaftliche Wissen nach den Standards der Fachkulturen und unter Beachtung medienspezifischer Besonderheiten zu archivieren und für eine wissenschaftliche Nutzung auf Dauer frei verfügbar zu machen.” Die Zugänge fehlen jedoch weiterhin.

Langfristige Sicherung von Daten

Bereits 2003 unterzeichneten führende ausländische und deutsche Forschungsorganisationen die „Berliner Erklärung”, mit der sie die Vision einer umfassenden Wissensrepräsentation über das Internet umsetzen wollten. Wissenschaftler sollten ermutigt werden, die eigenen Arbeiten nach dem „Prinzip des offenen Zugangs” zu veröffentlichen. Das soll bei der Begutachtung der Forschungsleistung anerkannt werden. Diese Ideen sind aber bislang kaum umgesetzt worden.

Offener Zugang im Internet

In der Wissensgesellschaft von morgen spielt der Online-Zugang zu Informationen eine bedeutende Rolle. Das hat auch die eScience-Initiative des BMBF aufgegriffen. Es geht dabei um die Nutzung von Ressourcen im weitesten Sinne, sowohl um verteilt vorliegende Daten und Informationen als auch um Verarbeitungsressourcen in Form von Rechnerleistung. Im Fokus der Förderung steht somit die Vernetzung von leistungsfähigen Rechnern zu Grids, die große Informationsbestände prozessieren sollen, zum Beispiel D-Grid. Zudem sollen Informations- und Wissensportale, also eine Informationsinfrastruktur, geschaffen werden. Beides trifft in besonderer Weise auf die geowissenschaftlichen Informationsbestände zu:

  1. Modellierungen und Simulationen des Systems Erde benötigen immense Rechnerkapazitäten.
  2. Die gigantischen Datenmengen, die durch Satelliten, Messgeräte und Forschungsschiffe generiert werden, müssen archiviert werden. Außerdem müssen sie durch Metainformation beschrieben und gebrauchsfertig gemacht werden. Anschließend können sie Wissenschaft, Wirtschaft und Verwaltung, Bürgern und Entscheidungsträgern verfügbar gemacht werden.

eScience-Initiative

Geowissenschaftliche Daten zeichnen sich durch große Volu­mina, enorme Vielfalt und hohe Komplexität aus. Sie werden zum Beispiel durch Satellitenfernerkundung, durch Forschungsschiffe, in Tiefbohrprogrammen, in weltweit verteilten Messnetzen und in Forschungsprojekten gewonnen. Die Kosten der Datengewinnung sind hoch und oftmals entstehen gigantische Datenmengen. Nachdem die Daten erfasst und ausgewertet sind, müssen sie in angemessener Zeit der geowissenschaftlichen Gemeinschaft verfügbar gemacht werden und zwar über moderne internetbasierte Datenbanken und Informationssysteme. Dabei handelt es sich um so genannte Geoinformationsportale. Hierfür müssen Mechanismen entwickelt werden, um die Daten abzunehmen und zu zertifizieren und um ihre langfristige Archivierung und Bereitstellung zu sichern.

Geowissenschaftliche Informationsportale

Auch Controlling und Qualitätssicherung müssen entwickelt werden. Zudem sollten Kostenmodelle, Nutzungsmodelle und Lizenzmodelle entwickelt werden, um die Daten zu nutzen. Wenn diese Portale entwickelt werden, sollten gängige Standards berücksichtigt werden. Die Portale sollten in die internationalen, europäischen und nationalen Initiativen zum Aufbau von Geodateninfrastrukturen eingebunden werden. Dabei sind zum Beispiel INSPIRE als Rahmenrichtlinie und GDI.de als nationale Umsetzung zu nennen. Datenzentren sollen zu virtuellen Kompetenzzentren für wissenschaftliches Arbeiten ausgebaut werden und dabei Beratungs- und Servicefunktionen für die Geowissenschaften ausüben. Es ist zudem nötig, Methodenpools und Dienste von einfachen Diensten hin zu komplexen Geoprocessing- und Analyse-Diensten zu entwickeln. Dabei sollte Open Source-Software genutzt werden.

Qualitätssicherung

Derartige Geoinformationsportale müssen als Gemeinschaftsinitiative unterschiedlichster Einrichtungen betrieben und weiterentwickelt werden. Hierzu gehören unter anderem:

  • die vier geowissenschaftlichen Datenzentren WDC-Mare (Marine Geowissenschaften, Bremen und Bremerhaven), WDC-RSAT (Fernerkundung, Oberpfaffenhofen), WDCC (Klima, Hamburg) und WDC-Terra (Lithosphäre und Geodäsie, Potsdam, beantragt). Sie gehören zum World Data Center System, einem weltweiten Verbund von Datenzentren.
  • Großforschungseinrichtungen mit geowissenschaftlichen Forschungsthemen.
  • Geowissenschaftliche Landes- und Bundeseinrichtungen; Bundesamt für Seeschifffahrt und Hydrographie (BSH), Bundesamt für Kartographie und Geodäsie (BKG), Bundesanstalt für Geowissenschaften und Rohstoffe (BGR), Deutscher Wetterdienst (DWD), Bundesamt für Bauwesen und Raumordnung (BBR). Einige Einrichtungen sind bereits an ­Initiativen zum Aufbau der Geodateninfrastruktur Deutschland (GDI-DE) beteiligt.
  • Universitäre Forschungseinrichtungen.
  • Bibliotheken, in denen zum Beispiel digitale Langzeitarchive eingerichtet werden (zum Beispiel Projekt KOPAL-Langzeitarchivierung der Bibliotheken).
  • Wirtschaftsunternehmen mit geowissenschaftlichen Projekten.

Es bestehen Anknüpfungspunkte zu anderen zukunftsorientierten Forschungs- und Dateninfrastrukturprojekten, unter anderem zum Geotechnologien-Programm (TP 13 – Informations­systeme im Erdmanagement) und zu verschiedenen DFG-Projekten im eScience-Kontext (GeoGRID). Geowissenschaftliche Informa­tionsportale werden auch in europäischen oder internationalen Projekten entwickelt.

Förderrichtlinien sollten in Zukunft nicht nur zu einem Abschlussbericht verpflichten, sondern auch dazu, die gewonnenen Daten zu publizieren. Bei den Fördereinrichtungen und den Datenzentren müssen entsprechende Kontroll- und Abnahmemechanismen etabliert werden. Dazu gehören auch Mechanismen, um datenproduzierende Projekte zu managen. Die Datenzentren könnten ihre Leistung in Zukunft nicht mehr nur über einen Zitierindex von Datenpublikationen nachweisen, sondern zum Beispiel auch über Wissensbilanzen.

Verpflichtung zur Publikation von Daten

Bei der Archivierung und Publikation großer Datenmengen gibt es folgende Probleme:

  • Die meisten Einrichtungen sind mit der Langzeitarchivierung der Daten überfordert.
  • Die Aufbereitung und Dokumentation von Daten ist zeit- und kostenintensiv.
  • Es fehlt ein Anreiz, Daten zu veröffentlichen und für die Veröffentlichung aufzubereiten.
  • Es fehlen anerkannte elektronische Medien, in denen Daten parallel zu deren Interpretation in traditionellen wissenschaftlichen Medien veröffentlicht werden können.

Diese Defizite können durch folgende Maßnahmen behoben werden, die vor allem im Datenmanagement liegen:

  • Archivierung in Langzeit-Datenzentren („Datenbibliotheken”).
  • Metadaten und Ontologien zur Datenbeschreibung müssen entwickelt werden.
  • Nutzerfreundliche Informationsportale („one stop shop”) für den allgemeinen Zugang zu geowissenschaftlichen Daten.
  • Datenmanagement muss obligatorischer Bestandteil von Forschung, Lehre und Forschungsförderung sein.
  • Es muss ein System zur Publikation und Zitierbarkeit wissenschaftlicher Daten eingerichtet werden, inklusive Nutzung neuer Medien.
  • Effiziente Kostenmodelle für die Langzeitarchivierung und Publikation von Daten müssen formuliert werden.

Informationsverarbeitung in den Geowissenschaften

In Deutschland lagern gigantische Datenmengen, die die Wissenschaft meist nur eingeschränkt nutzen kann und zu denen die Allgemeinheit in der Regel keinen Zugang hat. Die deutschen Datenzentren sind durchaus leistungsstark: Sie sind als Weltdatenzentren anerkannt und in internationale Netzwerke eingebunden. Inzwischen sind vielversprechende Entwicklungen zu beobachten. So ist die ISO 19115 (Geospatial Metainformation) verabschiedet worden, und verschiedenste Entwürfe für OpenGIS Consortium (OGC)-Spezifikationen zur interoperablen Nutzung von Geoinformationen sind wegweisend. Nachdem auch die politische Ebene erkannt hat, welche Bedeutung Geoinformationen als Bestandteil einer modernen Infrastruktur haben, gibt es auch dort neue Entwicklungen wie das GeoPortal.Bund. Daher bieten sich heute gute Voraussetzungen, um eine eScience-Infrastruktur für die Geowissenschaften allgemein umzusetzen.

Kapazitäten von geowissenschaftlichen Datenarchiven

Infrastruktur für die Modellierung

Die Forschungslandschaft verfügt mit dem Deutschen Klima­rechenzentrum (DKRZ), dem Großrechner in Jülich und anderen Hochleistungsrechnern über Rechenanlagen einer Größenklasse, mit denen sich Klimamodelle für Zeiträume von etwa 10.000 Jahren mit einer Maschenweite von etwa 1.300 Kilometern (T31) durchaus innerhalb eines halben Kalenderjahres rechnen lassen. Eine derartige Simulation würde am neuen Rechner des DKRZ nur einen der 240 vorhandenen Knoten benötigen. Für die doppelt so hohe Auflösung von 650 Kilometern, wie sie der IPCC-Bericht verwendet, würden acht Knoten benötigt.

Hochleistungsrechner

Wollte man einen Eiszeitzyklus von 150.000 Jahren rechnen, so müsste man mit der bisherigen Konfiguration 7,5 Kalenderjahre auf das Ergebnis warten. Eine Alternative besteht darin, die Modelle so zu optimieren, dass sie mehr Prozessoren gleichzeitig nutzen können. Wenn man die Modelle so umprogrammiert, dass sie gleichzeitig auf mehr Knoten rechnen, könnte die Rechenzeit auf unter ein Kalenderjahr gedrückt werden. Das würde den DKRZ-Rechner allerdings zu mehr als der Hälfte der Kapazität auslasten, was von den anderen Nutzern wohl nicht hingenommen werden würde.

Optimierung von Modellen

Die technische Infrastruktur ist bereits angemessen, problematisch ist die Verfügbarkeit von ausreichender Rechenzeit an den vorhandenen Großrechnern. Die Modelle müssten allerdings noch optimiert werden, um sie für diese langen Zeiträume einsetzen zu können. Hier ist eine enge Zusammenarbeit zwischen Geowissenschaftlern und Informatikern notwendig. Da sich die Rechen­leistung dem Mooreschen Gesetz zufolge derzeit alle fünf Jahre verzehnfacht, kann man davon ausgehen, dass man in fünf Jahren die Möglichkeit hat, eine Million Jahre zu rechnen, zum Beispiel um den EPICA-Eisbohrkern zu simulieren.

Kernaussagen

  • Die Geowissenschaften wandeln sich zunehmend zu einer Hochtechnologiedisziplin. Ein schneller und zielgerichteter Zugang zu Objekten und Informationsbeständen ist die Voraussetzung für moderne geowissenschaftliche Forschung.
  • Datenbanken und Informationssysteme sind gemäß internationalen Standards auszubauen und zu pflegen. Wissenschaftlich wertvolle Sammlungen müssen gepflegt und nutzbar gemacht werden.
  • Es muss ein selbstverständlicher Teil geowissenschaftliche Projekte werden, Objekte und Informationsbestände zu archivieren und bereitzustellen.
  • Nur durch moderne Infrastrukturen und Geräte sind bahnbrechende neue Erkenntnisse möglich. Zusammen mit außeruniversitären Forschungseinrichtungen müssen fach­übergreifende Konzepte entwickelt werden, um Infrastrukturen langfristig bereitzustellen.
zuletzt geändert am 2010-03-23 15:58:47 durch Dr. Frank Schmieder | Impressum