Ziel des Projekts ist eine Reduzierung der Stromaufnahme bei gleichzeitiger Maximierung des Durchsatzes im Betrieb von HPC-Systemen. Dies wird erreicht, indem Systemparameter, die einen Einfluss auf den Energieverbrauch haben, optimal auf jeweils laufende Jobs eingestellt werden. Das Einsparpotential wird an allen beteiligten Rechenzentren exemplarisch für je zwei ausgewählte Anwendungen demonstriert. Dieses Projekt kombiniert dabei eine umfassende jobspezifische Mess- und Steuerungs-Infrastruktur mit Techniken des maschinellen Lernens (ML) und Software-Hardware-Co-Design mit der Möglichkeit über die Laufzeitumgebungen Energieparameter steuern zu können. Über Policies werden die Rahmenbedingungen vorgegeben, die eigentliche Optimierung der Systemparameter erfolgt dann automatisch und adaptiv. Um das Potential der Energieeinsparung optimal zu nutzen, wird eine automatische Phasenerkennung sowie Erweiterungen der Laufzeitumgebungen MPI und OpenMP entwickelt, die es erlauben, dem GEOPM-Framework Informationen zum Applikationszustand mitzuteilen. Um benötigte zeitaufgelöste Metriken zum Energieverbrauch sowie Performanceverhalten der Applikation zu erfassen, werden Schnittstellen und Erweiterungen in LIKWID entwickelt. Zur Visualisierung und Steuerung der GEOPM-Funktionalität wird das Framework zum jobspezifischen Performance Monitoring ClusterCockpit erweitert und mit GEOPM gekoppelt. Die Neuheit des Lösungsansatzes ist die Entwicklung und Bereitstellung einer produktreifen Softwareumgebung für eine vollständig benutzertransparente Energieoptimierung von HPC-Applikationen. Das Projekt baut auf bestehende Open-Source-Software-Komponenten auf und integriert, erweitert und adaptiert diese für die neuen Anforderungen.

Dauer:

09/2022-08/2025

Eingeworbene Stellen:

1 Vollzeitequivalent

Gefördert durch:

BMBF; 16ME0586