Analyse (Data Analytics) von Lustre-Performance-Daten zur
Identifizierung von I/O-kritischen HPC-Applikationen
Das Schreiben und Lesen von großen Datenmengen kann bei
parallelen Simulationsprogrammen ein signifikantes Bottleneck
darstellen. Weil das Dateisystem eine Ressource ist, die sich
alle Benutzer teilen, kann ein falsch implementiertes I/O (Input/
Output) Verfahren negative Auswirkungen auf die I/O Perfomance
der Berechnungsjobs anderer Benutzer haben.
Am HLRS wurde ein Framework für das Monitoring der parallelen
Dateisysteme entwickelt. Dieses Framework sammelt I/O Performance-
Daten (z.B. die Bandbreite beim Lesen/Schreiben pro Job) zu den Applikationen die auf den HPC-Systemen des HLRS ausgeführt werden.
Ziel der Arbeit ist es aus den I/O-Performance-Daten
Applikationen mit Optimierungspotenzial im Bereich der I/O zu
identifizieren. Dafür werden im ersten Schritt Filterkriterien
aufgestellt, um relevante Berechnungsjobs (z.B. großer Hardware-Ressourcenverbrauch) zu identifizieren.
Im zweiten Schritt werden Metriken zur Bewertung der I/OPerformance
aufgestellt mit denen Applikationen mit Optimierungspotenzial identifiziert werden können. Im letzten Schritt werden die Filterkriterien und Performance-Metriken anhand verschiedener Datensatz analysiert und bewertet.
Arbeitsschritte:
• Literaturrecherche
• Einarbeitung in das bestehende Framework zur Lustre-Leistungsanalyse
• Aufstellen von Kriterien zur Reduzierung der Daten
• Aufstellen von Metriken zur Bewertung der I/O-Performance
• Evaluierung der Filterkriterien und der Performance-Metriken
• Schriftliche Dokumentation und Diskussion der Ergebnisse
Voraussetzung:
• Grundkenntnisse in Linux und Python
Betreuer:
• Prof. Dr.-Ing. Michael M. Resch
• Philipp Offenhäuser (offenhaeuser@hlrs.de)
• Holger Berger (NEC)
• Thomas Beise
Ausgabe: Ab sofort, bei Interesse bitte Philipp Offenhäuser (offenhaeuser@hlrs.de) kontaktieren.