ISC-Nachlese: Hohn für Intels Aurora, Lob für Nvidias Grace-Hopper

Der Supercomputer Aurora hat zwar die Exaflops-Marke geklommen, der Hardware-Partner Intel kam auf der Supercomputing-Konferenz ISC aber trotzdem schlecht weg.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Renderbild eines Rechenzentrums von innen

(Bild: IM Imagery/Shutterstock.com)

Lesezeit: 9 Min.
Von
  • Andreas Stiller
Inhaltsverzeichnis

Die auf Supercomputer fokussierte Messe ISC High Performance in Hamburg ist zu Ende. Platinsponsor Intel hatte wohl auf Sonnenaufgangsstimmung gehofft, ist doch ihre Exaflops-"Sonne" Aurora mit sechs Jahren Verspätung nun endlich über den Horizont gekommen. Doch so richtige Strahlkraft hat sie offenbar nicht entfaltet. Wenn man auf der ISC überhaupt von Aurora mit seinen Intel-Prozessoren und -Beschleunigern sprach, dann zumeist negativ, nicht selten sogar spöttisch. Ist doch seine Energieeffizienz zumindest beim 64-bittigen Linpack-Benchmark im Vergleich zu den AMD- und Nvidia-Systemen eher blamabel. Und die einst mal anvisierten 2 EFlops sind zunächst jedenfalls weit verfehlt. Reichlich Optimierungsbedarf fehlt zudem beim HPCG-Benchmark.

Viel mehr Aufmerksamkeit kam so den Grace-Hopper-Systemen mit Nvidia-Prozessoren zuteil, zumal man sie auf der Ausstellung auch in Hardware bewundern konnte, zumeist in Servern mit Boards von Gigabyte.

HPE-Cray ist bei allen Plattformen ganz vorn dabei. Der Serverbauer zeigte stolz seine Blades, auch die nagelneuen für Grace-Hopper (mit Kunstoffleitungen für die Wasserkühlung) und Modelle für AMDs Epyc 9004 (Genoa) sowie der neu vorgestellten MI300-Serie. Mit dabei sind auch schon HPE-Racks vom Exascale-Supercomputer El Capitan, die in der Top500-Liste Platz 48 erreichten. El Capitan soll ja wirklich mindestens 2 Exaflops erreichen.

Das wassergekühlte Grace-Hopper-Superchip-Blade EX254n von HPE-Cray.

(Bild: heise online / as)

Aber ein Aurora-Blade auf der Veranstaltung? Bei HPE heißt es: Fragen Sie Intel. Bei Intel: Fragen Sie das Leibniz-Rechenzentrum. Und dort kann man sich tatsächlich zumindest ein Blade des "kleinen Aurora" anschauen, mit vier statt sechs Ponte-Vecchio-Beschleunigern.

Immerhin konnte man beim Leibnizrechezentrum das Blade des kleinen Auroras bewundern.

(Bild: heise online / as)

Sechs große Forschungseinrichtungen berichteten über ihre ersten Erfahrungen mit Grace-CPUs, sowohl mit als auch ohne angefügter Grace-Hopper, und diese waren unisono positiv: die Uni Bristol (Isambard 3), das Los Alamos Lab (Venado), TACC (Vista), CSCS (Alps), Jülich (Jupiter) und das japanische Joint Center for Advanced HPC (Myabi-G). Demnach erwies sich die Portierung der Software als "relativ einfach". OpenMPI und andere MPI-Stacks (außer Intel) stellten kein Problem dar. Die Japaner empfehlen übrigens OpenACC. Ihre Liste erprobter HPC-Applikationen bestand zu 90 Prozent aus Fortran-Programmen und die verwenden zumeist doppelt genaues Gleitkommaformat (FP64). Ob Intel mit seiner Entscheidung, bei Ponte-Vecchio auf doppeltgenaue Matrix-Engines zu verzichten, so richtig lag?

Ein einzelnes Rack des schweizerischen Alps mit 512 Grace-Hopper-Superchips ist für 340 Kilowatt ausgelegt, das Dreifache vom Piz Daint zuvor. Unter Vollast zieht ein Chip 650 Watt – und da gibts ja noch ein paar mehr Verbraucher. So musste man per Powercapping die Chipleistung auf 570 Watt beschränken. Apropos Energiesparen: im Idle-Betrieb, so das CSCS, sind die Superchips nicht gerade sparsam. Der Rechner zieht mehr als zuvor Piz Daint unter Vollast. Aber ohne Rechenlast sollen die wertvollen Systeme ja nur selten laufen …

Ein typisches Programm in den Los Alamos Labs. Pro Kern liegt der Superchip knapp hinter Intels Sappire Rapids, dafür bietet er in der Doppelausführung aber 144 statt nur 110 Kerne.

(Bild: heise online / as)

Der Jupiter-Booster mit Grace-Hopper-Superchips soll das erste Exascale-System in Europa werden, und zwar im Rahmen der Supercomputing-Initiative EuroHPC Joint Undertaking (EuroHPC JU). Mit lediglich einem bislang nur halb bestückten Rack namens Jupiter Exascale Development Instrument (Jedi), aufgebaut von Eviden, konnte das Jülicher SC schon mal zeigen, was Sache ist – und übernahm die Spitzenposition in puncto Energieeffizienz. Voll bestückt enthält ein Rack 48 Knoten mit je vier Prozessoren – insgesamt 140 Racks ergeben fast zwei Millionen ARM-Neoverse-V2-Kerne. Dieser Aufbau soll jetzt voll im Gange sein. Zusätzlich ist auch ein Jupiter-Cluster mit 2600 europäischen Prozessoren Rhea-1 von SiPearl geplant (auf Basis des älteren ARM Neoverse V1). Aber der lässt weiter auf sich warten, von SiPearl hört man dazu nur das übliche "soon".

Doch in Europa werden auch noch andere Prozessoren fürs High-Performance-Computing entworfen, etwa vom Fraunhofer ITWM in Zusammenarbeit mit dem ETH Zürich ein Prozessor speziell als Stencil- und Tensor-Beschleuniger (STX). Eine Vielzahl von Anwendungen können davon profitieren, bei Strömungsdynamik, in Klima- und Wettervorhersagen bis hin zu bildgebenden Verfahren. Vier solcher STX-Prozessoren kommen auf eine PCIe-5.0-Karte, zusammen mit 64 GByte High-Bandwidth Memory (HBM). Ein jeder fährt ein kleines Linux. Das Konzept ist also ein bisschen ähnlich dem NEC-Vektorrechner SX-Aurora Tsubasa. Programmiert werden soll er bequem über OpenMP-Offloading. Das Design ist bereits fertig, die PCIe-Karte auch, nur die Fertigung der Chips (im 12-Nanometer-Prozess) lässt noch auf sich warten. Auch eine Vermarktungsfirma namens UNEEC Systems wurde bereits gegründet, mit dem ehemaligen HPC-Bereichsleiter des Fraunhofer ITWM, Dr. Franz-Josef Pfreundt als CEO. Die junge Firma sucht noch nach Investoren …

Das Board des Stencel- und Tensor-Beschleunigers ist fertig und wartet nur noch auf die noch in der Fertigung befindlichen Prozessoren

(Bild: heise online / as)