Bachelor- oder Masterarbeit “Implementierung einer automatisierten Metadatenerfassung im HPC-Umfeld”

Forschungsdatenmanagment in den Ingenieurwissenschaften steht vor einigen Herausforderungen, insbesondere die Größe der Daten sowie deren Verwaltung ist problembehaftet. Auch heutzutage werden die im Forschungsprozess anfallenden, durch Simulation erzeugten Forschungsdaten, die z.B. Trajektorien von Molekülen oder Strömungsverhalten repräsentieren, oft nur über Datei- oder Verzeichnisnamen verwaltet, was sich zusehens als unzureichend herausstellt.

Für zielgerichtetes Forschungsdatenmanagement unabdingbar ist die Benutzung von Metadaten. Metadaten sind Daten über Daten und beschreiben diese von höherer Ebene ausgehend inhaltlich. Metadaten sind eine der wesentlichen Voraussetzungen, Daten FAIR (Findable, Accessible, Interoperable, Re-usable) [1] bereitzustellen. Das Projekt DIPL-ING [2] hat sich zum Ziel gesetzt, Konzepte und Lösungen für das Forschungsdatenmanagement in den Ingenieurwissenschaften zu entwickeln und Daten FAIR zu machen. Innerhalb des Projekts wurde das Metadatenmodell EngMeta für die Thermound Aerodynamik entwickelt [3]. Als eine der wesentlichen Anforderungen für gelingendes Forschungsdatenmanagement kristallisierte sich die automatisierte Erfassung von Metadaten heraus sowie die Nutzung eines zentralen, fachspezifischen Repositoriums.

Ziele und Aufgaben

Im Rahmen der Arbeit, welche sowohl als Bachelor- als auch als Masterarbeit ausgestaltet werden kann, sollen 1. die automatisierte Erfassung von Metadaten weiterentwickelt und 2. Schnittstellen zum Repositorium (Dataverse) erstellt und programmiert werden.

Erweiterung der automatisierten Erfassung von Metadaten: Ein bestehendes, prototypisches auf Java/Spark basierendes und für Gromacs-Dateien aus thermodynamischer Simulation ausgelegtes System soll weiter implementiert werden. Dies umfasst einerseits die Erweiterung auf andere Dateiformate (aus Simulationspaketen der Aerodynamik). Andererseits soll die prototypische Implementierung möglichst in eine systemnahe, native und leichtgewichtige Implementierung überführt werden.
Anpassung und (Weiter)-Entwicklung des Dataverse Clients (Java), so dass Daten und Metadaten auf dem Dateisystem in der Höchstleistungsrechner-Umgebung am HLRS in das universitätsweite Repositorium für Forschungsdaten geschrieben und wieder empfangen werden können. Dazu muss der Dataverse-Client zunächst auf seine bestehende Funktionalität hin analysiert und ggf. erweitert und angepasst werden.

Schließlich müssen die Ergebnisse in einer schriftlichen Ausarbeitung, die wissenschaftlichen Standards genügen und sich nach den allgemeinen Bestimmungen im jeweiligen Fachbereich richten muss, vorgelegt werden. Außerdem muss die Arbeit in einem Vortrag vorgestellt werden.

Anforderungen

Der/Die Berarbeiter/in bringt Linux-Kenntnisse mit, die auch Shell-Scripting umfassen. Außerdem werden Kenntnisse in der Sprache Java vorausgesetzt. Idealerweise wird das Profil ergänzt durch Kenntnisse im Bereich Simulation und Benutzung von Cluster-Systemen.

Betreuer:

Dipl.-Inf. Björn Schembera
Prof. Dr.-Ing. Michael M. Resch

Ausgabe und Kontakt:

ab sofort, bei Interesse oder Fragen bitte an Herrn Björn Schembera (schembera@hlrs.de) wenden

Referenzen

[1] Wilkinson, M.D., Dumontier, M., Aalbersberg, I.J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.W., da Silva Santos, L.B., Bourne, P.E., et al.: The fair guiding principles for scientific data management and stewardship. Scientific data 3 (2016)
[2] https://www.hlrs.de/about-us/research/current-projects/dipl-ing/
[3] Schembera, Björn und Dorothea Iglezakis (2018). „The Genesis of EngMeta – A Metadata Model for Research Data in Computational Engineering“. In: Metadata and Semantic Research. 12th International Conference, MTSR 2018, Limassol, Cyprus, 23-26 October 2018, Proceedings. Springer.