Mit Horovod GPU-Cluster für Deep Learning effektiv nutzen

Ringelreihe

Ramon Wartala

Will man Deep-Learning-Modelle möglichst schnell auf verteilten Systemen trainieren, hilft das Framework Horovod. Mit wenigen Zeilen Python-Code skaliert es ein Trainingsskript auf mehrere GPUs – die auch in der Cloud liegen können.

Deep-Learning-Modelle werden umso leistungsfähiger, je mehr Daten für das Training zur Verfügung stehen. Diese Daten entstehen zum Beispiel petabyteweise bei der Entwicklung moderner Fahrassistenzsysteme der zweiten und dritten Generation im Rahmen von Software-defined Vehicles. Um bei der Entwicklung der neuen Generation eines Deep-Learning-Modells nicht Wochen und Monate auf das Ergebnis eines Trainingslaufs zu warten, sind effiziente Skalierungstechniken erforderlich. Wie sich das Modelltraining einfach und effektiv über mehrere GPU-Systeme verteilen lässt, zeigt das von Uber ins Leben gerufene Open-Source-Framework Horovod. Es liegt seit 2018 auf GitHub, die Linux Foundation verwaltet es.

Grafikprozessoren (GPUs) werden seit Anfang der 2000er-Jahre für das Training tiefer künstlicher neuronaler Netze genutzt. Mit ML-Frameworks wie TensorFlow und PyTorch lassen sich verteilte Deep-Learning-Modelle mit sehr vielen Daten über Rechnergrenzen hinweg trainieren, besonders dann, wenn man das Modelltraining beschleunigen möchte (siehe Kasten „Daten- versus Modellparallelität“).