LLaVA: Multimodales offenes KI-Modell auf LLaMA-Basis liest Bilder und Sprache

Die Forschungsdemo des Large Language and Vision Assistant erlaubt Usern das Hochladen eigener Bilder zum Testen multimodaler Fähigkeiten und sammelt Feedback.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen

Extremfotografie: Vulkane

(Bild: Adrian Rohnfelder / rohnfelder.de)

Lesezeit: 7 Min.
Von
  • Silke Hahn

Ein vierköpfiges Forschungsteam von Microsoft und zwei US-amerikanischen Universitäten hat LLaVA veröffentlicht: Der Large Language Visual Assistant (LLaVA) ist ein multimodales KI-Modell nach Art bekannter KI-Chatsysteme. Es verarbeitet Sprache und Bilder, für Forschungszwecke steht es frei zur Verfügung – es kombiniert einen Vision Encoder mit einem großen Sprachmodell, dem LLaMA-Ableger Vicuna. LLaVA wurde mit maschinell erzeugten Trainingsdaten feinjustiert, die über die OpenAI-API von GPT-4 synthetisch erzeugt wurden.

Ziel der Forscher war es, ein großes Sprachmodell (Large Language Model, kurz LLM) für Zero-Shot-Eingaben zu trainieren und diesen Ansatz multimodal zu erproben. "Zero Shot" bedeutet hier, dass das Modell dazu geeignet sein soll, auf Anhieb ohne weitere Vorgaben (Prompts) sinnvolle Antworten auszugeben. Multimodal ist LLaVA insofern, als es Anweisungen in Text- und Bildform entgegennimmt, auch in der Kombination beider Modalitäten. Spannend ist auch der Hinweis des Forscherteams, dass LLaVA beim Feintuning auf wissenschaftliche Frage-Antwort-Konversation eine Trefferquote von über 92 Prozent erreichen soll. Sollte sich das unabhängig bestätigen lassen, wäre es ein Fortschritt gegenüber bisherigen Vergleichswerten.

Die Forscher verwendeten die reine Sprachversion von GPT-4 (ohne multimodales Plug-in), um einen multimodalen Satz an Sprach-Bild-Anweisungen zu erzeugen. Durch die Kombination von Vision Encoder und Large Language Model (LLM) habe LLaVA allgemeine visuelle und sprachliche Fähigkeiten erlangt. Ersten Tests zufolge kann es noch nie zuvor gesehene Bilder auf Anhieb in Textform beschreiben und soll in seinem Verhalten der multimodalen Version von GPT-4 nahekommen – so berichtet das Team von einer 85-prozentigen Trefferquote im Vergleich mit der multimodalen Version von GPT-4.

LLaVA beantwortet Fragen zu Bildern: Gepromptet wurde die Frage "Worauf sollte ich achtgeben, wenn ich diesen Ort besuche?" gemeinsam mit einem Testbild. Die Antwort enthält detaillierte Angaben zur im Bild dargestellten Szene und davon abgeleitete Ratschläge.

(Bild: LLaVA-Website)

Externe Benchmarks liegen nicht vor, da die multimodale GPT-4-Version bislang nur vorgestellt wurde, aber nicht öffentlich aufrufbar ist. Lediglich ausgewählte Partner von Microsoft-OpenAI haben zurzeit auf diese Version Zugriff. Das LLaVA-Team scheint zu diesem Kreis der Auserwählten zu gehören, zumal einer der beteiligten Forscher bei Microsoft angestellt ist. Microsoft ist der Hauptgeldgeber von OpenAI und hatte sich mit insgesamt 11 Milliarden US-Dollar bei dem Start-up eingekauft sowie exklusive Nutzungsrechte an OpenAIs KI-Modellen seit GPT-3 gesichert. Seit Beginn der Geschäftsbeziehungen mit Microsoft 2019 sind alle OpenAI-Modelle Closed Source und für den Rest der Welt eine Blackbox. Insbesondere zu den multimodalen Fähigkeiten von GPT-4 ist wenig bekannt, da sie anders als das textbasierte ChatGPT noch nicht über eine Demo zu testen sind. Von exklusiven Partnern berichtete Leistungswerte lassen sich zurzeit noch nicht unabhängig prüfen.

Die Publikation von LLaVA erlaubt einen kleinen Blick in den Maschinenraum von Microsoft-OpenAI und ist insofern spannend, als das Team den GPT-4-generierten Datensatz für das visuelle Feintuning samt dem Modell und der Codebasis veröffentlicht hat. Mehr zum Projekt findet sich auf der LLaVA-Website. Auf einer separaten Domain lässt sich die Forschungsdemo ausprobieren.

Interaktionsmöglichkeiten in der Forschungsdemo: Das Team von Microsoft und zwei US-amerikanischen Universitäten sammelt Nutzerdaten und bittet um User-Feedback für die mit LLaVA generierten Ergebnisse.

(Bild: LLaVA-Website)

Im Interface ist ein recht einfach gestricktes Bewertungstool eingebaut, mit dem Nutzer die Ergebnisse für gut oder schlecht befinden können (Daumen hoch: Upvote, Daumen runter: Downvote). Zusätzlich lassen unerwünschte Inhalte sich mit einer Warnflagge versehen. Für eine bestehende Eingabe können Nutzer eine neue Antwort anfordern und den Verlauf löschen, um neu loszulegen. In der Demo sind zwei Testbilder hinterlegt. Das Modell verfüge über wenige eingebaute Sicherheitsmechanismen und darf nicht für illegale, bösartige, gewalttätige, rassistische oder sexuell-pornografische Zwecke verwendet werden, heißt es in der Beschreibung (offenbar ist es dazu in der Lage). Nutzerdialogdaten werden gespeichert "für künftige Forschungszwecke".

Wer damit arbeitet, möge unangemessene Antworten per "Flag" kennzeichnen (eine Aufgabe, die sonst oft unterbezahlte Klickarbeiter in Kenia und andernorts beim menschlichen Feedbackspenden im Reinforcement Learning HF ausführen, oder Freiwillige bei Crowdsourcing-Projekten im Open-Source-Bereich). Damit werde ein offenbar automatischer Moderator trainiert. Wer hier mitmacht, sollte sich darüber im Klaren sein, dass er oder sie Daten an Microsoft spendet, die von dem Konzern potenziell auch kommerziell nutzen könnte – umgekehrt selbst aber das Modell nicht kommerziell nutzen darf.

Microsoft und die anderen Projektbeteiligten sammeln die User-Daten "für Forschungszwecke". Darüber sollte man sich im Klaren sein, bevor man mit dem Prompten loslegt und etwa eigene Bilder hochlädt. Wer die Demo nutzt, stimmt den Geschäftsbedingungen zu. Es handelt sich laut Terms of Use um eine Forschungsvorschau ausschließlich für nicht-kommerzielle Zwecke, die den Lizenzbedingungen von LLaMA unterliegt (Non-commercial bespoke license), den Terms of Use von OpenAI und den Privacy Practices von ShareGPT, einer Plattform zum Teilen und Aufbewahren von ChatGPT-Konversationen (Thread über Privacy Issues im GitHub-Repository von ShareGPT: Offenbar gibt es zurzeit noch keine Möglichkeit, über ShareGPT geteilte Daten zu löschen).

LLaMA ist von MetaAI bislang nicht als Open Source freigegeben (dazu weiter unten mehr) und steht nur ausgewählten Forschungspartnern zur Verfügung, und das Akronym LLaMA steht für Large Language Model Meta AI. Die Einschränkung für nicht-kommerzielle, rein wissenschaftliche Zwecke gilt daher auch für das neue LLaVA, das die vier KI-Forscher Haotian Liu und Yong Jae Lee (University of Wisconsin-Madison), Chunyuan Li (Microsoft Research) und Quingyang Wu (Columbia University) bei GitHub und Hugging Face inklusive des Datensatzes und der Modellgewichte verfügbar machen.

Nur ausgewählte Forschungseinrichtungen haben auf offiziellem Wege die Modellgewichte erhalten, daher stehen Abkömmlinge des LLaMA zurzeit unter rechtlichem Vorbehalt und dürfen nur zu Forschungszwecken, nicht aber kommerziell genutzt werden. Manche LLaMA-Ableger entstammen keiner Forschungskooperation, sondern einem illegalen Bittorrent-Leak und stehen daher unter noch größerem Vorbehalt.

Der synthetische Datensatz LLaVA-Instruct-150K steht auf Hugging Face bereit. Die Daten stammen aus April 2023. Zum Erzeugen wurde als Schnittstelle die GPT-4-0314-API verwendet. Wie das LLaVA-Team betont, sind in erster Linie Wissenschaftler und Menschen, die sich hobbymäßig mit Computervision, NLP, Machine Learning und KI befassen, die Zielgruppe. Der Datensatz steht unter der Lizenz Attribution-NonCommercial 4.0 International und wer ihn verwendet, hat zusätzlich die Geschäftsordnung von OpenAI zu beachten. Deren Terms of Use schließen etwa die Nutzung GPT-4-generierter Datensätze zum Erstellen von Konkurrenzprodukten aus.

Der Forschungsbericht steht bei ArXiv.org bereit ("Visual Instruction Tuning"). Der Modell-Code samt Gewichten und einer Evaluierung steht bei GitHub bereit. Fragen, Anmerkungen und Probleme lassen sich ebenfalls über GitHub einbringen.

(sih)