Nvidia H200: Hopper mit HBM3e jetzt auch ohne Grace als Beschleuniger

Nach H100, H100 NVL und GH200 kommt jetzt der vierte Hopper-Chip: H200. Der Chip bleibt derselbe, er bekommt aber viel mehr und viel schnelleren HBM3e-Speicher.

4

13.11.2023, 15:08 Uhr

Lesezeit: 3 Min.

c't Magazin

Von

Carsten Spille

Zur Supercomputing Conference 2023 in Denver kündigt Nvidia mit langem Vorlauf die nächste Hopper-Ausbaustufe an. Die H200 soll ab den zweiten Quartal 2024 KI-Training speziell von Large-Language-Modellen in Rechenzentren beschleunigen. Dafür verzichtet Nvidia bei der H200 auf den ARM-Prozessor Grace, der ihm noch im GH200 zur Seite steht.

Die H200-GPU selbst entspricht dabei dem bekannten Hopper-Design, auch Zahl und Fähigkeiten der Recheneinheiten inklusive der Tensorcores ändern sich laut Ankündigung nicht. Dafür bekommt die H200 ein Speicherupgrade und führt 144 GByte HBM3e-Speicher ins Feld, der eine Übertragungsrate von 4,8 TByte pro Sekunde erreichen soll. Nutzbar bleiben davon in der H200 noch 141 GByte, wie Nvidia auf Nachfrage bestätigte und mit einer Optimierung von Ausbeute und Leistung begründete.

Die H200 ist als reiner Beschleuniger konzipiert, der als SXM5-Modul an der Seite von x86-Prozessoren arbeitet und wird von Nvidia und Systemherstellern im Rahmen der DGX-H200-Plattform als fertiges Modul mit bis zu acht H200-Chips und 1128 GByte HBM3e-Speicher verkauft.

Im Vergleich zu einem System mit DGX H100 und je 80 GByte pro GPU soll ein DGX H200 laut Nvidia beim Inferencing von GPT-3 mit 175 Mrd. Parametern bei FP8-Genauigkeit rund 60 Prozent schneller arbeiten, Einzel-GPUs bei Llama-2 mit 70 Milliarden Parametern sogar 90 Prozent schneller. Die Latenz bis zum ersten Token bleibt hingegen zwischen den Systemen jeweils gleich, da es dabei auf den Compute-Durchsatz ankommt und nicht auf die Speichergröße oder dessen Durchsatz.

Weitere Details gab Nvidia in seinem Github-Blog schon vor dem Fall der Sperrfrist preis.

KI braucht vor allem mehr Speicher

Trotz aller Programmiertricks und Optimierungen wie dünn besetzte Matrizen (Sparsity) oder die Transformer-Engine in den Tensor-Cores brauchen Large-Language-Modelle (LLM) immens viel lokalen Speicher. Ist dieser zu knapp und müssen Daten mehrfach über PCI-Express, NVLink und Co. übertragen werden, sinkt die Trainingsgeschwindigkeit drastisch, da der lokale Speicher immer noch um Faktor 5 schneller als die GPU-zu-GPU-Verbindungen ist.

AMD und Intel sind mit ihren MI300- und Data Center GPU-Max vorgesprescht und haben 192 respektive 128 GByte schnellen Speicher darauf gelötet. Dagegen sieht Nvidias Hopper-Angebot mit nur 80, maximal 96 GByte pro GPU gerade bei LLMs wie Llama-2 alt aus.

Nach der Dual-Chip-Lösung H100 NVL, die bereits den Fokus auf den Speicherausbau legte, diesen aber auf zwei GPUs aufteilte, kommt jetzt gezwungenermaßen H200, um auch beim Speicherausbau mit AMD und Intel mithalten zu können.

Die H200 soll hard- und softwarekompatibel zu DGX-H100-Systemen sein und damit ohne Zeitverzug einsetzbar, wenn sie im zweiten Quartal 2024 wie angekündigt von Systemhäusern und in der Cloud verfügbar sein wird. Zu den Preisen schwieg Nvidia bislang.