MEGABYTE – Metas neue Transformer-Architektur

Meta will mit einer eigenen Architektur Probleme bei herkömmlichen Transformer-Modellen ausmerzen. Die neue Herangehensweise verzichtet auf einen Tokenizer und verarbeitet Daten byteweise. Damit sollen Modelle gleichermaßen Texte, Bilder und Audio beherrschen.

Von Danny Gerst

Klassische Transformer-Modelle erzeugen ihre Ausgaben Token für Token. Der neue MEGABYTE-Ansatz aus Metas KI-Laboren erzeugt einen parallelisierbaren Ausgabestrom [1]. Ihre Stärken zeigt die Architektur beim effizienten Verarbeiten von großen Texten, Bildern und Tondateien, die Eingabesequenzen von mehreren Millionen Bytes umfassen. MEGABYTE braucht keinen Tokenizer, der oft als limitierender Faktor des klassischen Transformer-Ansatzes gesehen wird (siehe Kasten). Diese beiden Faktoren könnten in Zukunft sehr viel effizientere Modelle ermöglichen.

Große Eingabesequenzen von mehreren Millionen Bytes sind überall zu finden. Sei es in Form von hochauflösenden Bildern, Podcasts, Büchern oder Code-Repositorys. Bei Self-Attention-Berechnungen in klassischen Transformern steigt die Laufzeit mit der Länge der Eingabesequenz quadratisch. Der Lösungsansatz der MEGABYTE-Architektur ist es, lange Sequenzen von bis zu einer Million Bytes in kleinere Sequenzen zu unterteilen und parallel zu verarbeiten. Dabei gelingt es, die Laufzeit der Self-Attention-Berechnung deutlich zu reduzieren. Dieser Ansatz senkt nicht nur den Rechenaufwand bei der Ausgabe (Inference), sondern auch die Rechenkosten im Training.