Microsofts multimodale KI-Projekte: Jarvis soll mit ChatGPT KI-Modelle managen

ChatGPT verwaltet in Microsofts KI-Projekt Jarvis verschiedene KI-Modelle. Damit lassen sich neben Texten auch Audio- und Videodateien erzeugen.

In Pocket speichern vorlesen Druckansicht

(Bild: everything possible/Shutterstock.com)

Lesezeit: 2 Min.

Microsoft bringt ein weiteres multimodales KI-Projekt namens Jarvis ins Spiel, in Anlehnung an den KI-Assistenten von Tony Stark aus Iron Man: Jarvis, beziehungsweise HuggingGPT – das inzwischen auch GPT-4 unterstützt – soll ChatGPT mit Hunderten von KI-Modellen verbinden. Nachdem die Nutzerinnen und Nutzer eine Anfrage gestellt haben, sucht ChatGPT, ähnlich wie bei Microsofts Visual ChatGPT, passende KI-Modelle anhand ihrer Beschreibungen heraus.

Das Forscherteam rund um Yongliang Shen von Microsoft Research Asia in Peking hat Jarvis ins Leben gerufen, da den großen Sprachmodellen derzeit noch die Fähigkeit fehle, komplexe Aufgaben zu bearbeiten, die sich allerdings meist in mehrere Teilaufgaben aufteilen lassen.

HuggingGPT soll 24 verschiedene Aufgabenbereiche abdecken, darunter Textklassifizierung, Objekterkennung, semantische Segmentierung, Bilderzeugung, Beantwortung von Fragen, Text-zu-Sprache und Text-zu-Video, wie aus einem Paper von Shen et al. hervorgeht (PDF). Durch die Zusammenarbeit der Modelle werde den Anwendern die Suche nach den für ihre Zwecke passenden KIs abgenommen. Dabei stammen die Modell-Beschreibungen von der Website des KI-Startups Hugging Face.

ChatGPT koordiniert weitere KI-Modelle

(Bild: ‪Yongliang Shen et al.)

Im ersten Schritt plant HuggingGPT die Aufgaben, wofür mittels ChatGPT zunächst die Nutzeranfragen analysiert werden. Dabei werden die Aufgaben in "möglichst lösbare Prompts" zerlegt. Anschließend wählt ChatGPT geeignete Modelle aus und gibt die Ergebnisse der jeweils ausgewählten Modelle an ChatGPT zurück. Zu guter Letzt werden mithilfe von ChatGPT Antworten erzeugt, die auf den Ergebnissen aller Modelle basieren.

Während Visual ChatGPT auf die Beantwortung von Fragen und Erklärungen zu Bildern und deren Bearbeitung spezialisiert ist, stellt HuggingGPT auch Details zum Einsatz der KI-Modelle bereit, liest Antworten vor oder generiert Videos. In einem Beispiel erzeugt HuggingGPT auf Anweisung ein kurzes Video von einem Astronauten. Mit der Ausgabe des Videos erfolgt auch eine genaue Angabe zu den Zwischenschritten samt jeweiligen Dateinamen.

HuggingGPT generiert kurzes Video

(Bild: ‪Yongliang Shen et al.)

Der überwiegend in Python geschriebene Code von Jarvis ist unter MIT-Lizenz auf GitHub frei verfügbar. Wer Jarvis ausprobieren will, benötigt laut Angaben im Repository darüber hinaus einen Hugging Face Token sowie einen OpenAI-API-Zugang – durch letzteren können zusätzliche Kosten entstehen.

(mack)