Zigtausende H100-GPUs: Google baut Top-2-Supercomputer

Google baut über die Erde verteilt Supercomputer fürs KI-Training auf. Die größten davon sollen es mit den schnellsten Top500-Systemen aufnehmen können.

In Pocket speichern vorlesen Druckansicht 5 Kommentare lesen

Nvidias H100-GPU.

(Bild: Nvidia)

Lesezeit: 2 Min.

Die Google-Cloud bekommt Zuwachs durch einige neue Rechenzentren. Google lässt sich dabei nicht lumpen und spricht von bis zu 26 Exaflops KI-Performance pro neuem System – das entspricht 26 Trillionen (26.000.000.000.000.000.000) Operationen pro Sekunde. Kunden können die Rechenleistung über kommende A3-Instanzen mieten, etwa zum Trainieren von Large Language Models.

Im Blog-Beitrag spricht Google von A3-GPU-Supercomputern, die das Unternehmen über die Erde verteilt aufbaut. Jedes System nutzt die gleichen Hardware-Komponenten, die in unterschiedlichen Stückzahlen skaliert werden.

Zum Einsatz kommen Nvidias H100-GPUs und Intels Xeon-Scalable-Prozessoren der vierten Generation alias Sapphire Rapids. Die Systeme basieren offenbar auf Nvidias DGX100, sodass ein Cluster aus acht H100-Beschleunigern und zwei Xeon-SP-CPUs bestehen dürfte. Nvidias eingebaute NV-Links samt dazugehöriger NV-Switches übernehmen die Kommunikation zwischen den GPUs, wobei Google einen eigenen Software-Stack einsetzt. Zusammen mit Intel entwickelte Custom-Netzwerkprozessoren (Infrastructure Processing Units, IPUs) entlasten die Xeon-CPUs.

Eine Google-Sprecherin bestätigte gegenüber HPC Wire, dass in den größten A3-Rechenzentren Dutzende Tausend H100-GPUs eingesetzt werden sollen: "Für unsere größten Kunden können wir A3-Supercomputer mit bis zu 26.000 GPUs in einem einzigen Cluster bauen und arbeiten daran, mehrere Cluster in unseren größten Regionen zu bauen." Nicht jedes System bekommt allerdings so viele GPUs.

In dieser Größenordnung nimmt es Google mit den derzeit weltweit schnellsten Supercomputern auf. Frontier als Anführer der aktuellen Top500-Liste schafft mit Tausenden AMD-Epyc-Prozessoren und Radeon-Instinct-GPUs vom Typ MI250X mehr als einen FP64-Exaflops.

In diesem Datenformat würden 26.000 H100-GPUs im Bestfall etwa 780 Petaflops (0,78 Exaflops) schaffen – die Realleistung dürfte über solch ein großes Netzwerk eher niedriger ausfallen. Hinzu käme die Rechenleistung von 6500 Intel-CPUs (bei zwei Prozessoren pro Cluster). Die oben genannten 26 Exaflops gelten für simplere KI-Formate wie Tensorfloat 32 (TF32) oder FP16.

Ein vollausgebauter A3-Supercomputer würde sich nach aktuellem Stand komfortabel auf dem zweiten Platz der Top500-Liste bewegen. Einen entsprechenden Linpack-Benchmark-Run, um in der Liste zu landen, wird Google als Privatunternehmen aber wahrscheinlich nicht durchführen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(mma)