KI-System DALL·E erweitert Rahmen: Outpainting malt Bilder über den Rand hinaus

Ein Feature erweitert in DALL·E nun die ursprüngliche Bildgrenze – Outpainting ermöglicht neue Elemente, Stilkombinationen und eine großformatige Ausarbeitung.

In Pocket speichern vorlesen Druckansicht 20 Kommentare lesen

Original: Mädchen mit dem Perlenohrring von Johannes Vermeer

(Bild: Outpainting von August Kamp)

Lesezeit: 7 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

OpenAI erweitert seinen Text-zu-Bildgenerator DALL·E 2 um eine wesentliche Fähigkeit: Outpainting erlaubt es den Usern, mit der Größe der von ihnen erzeugten Grafiken zu spielen. Mit der neuen Komponente lässt sich eine Darstellung über den ursprünglichen Bildrand hinaus fortsetzen. Dabei sollen der Kreativität keine Grenzen gesetzt sein, heißt es im Blogeintrag: Wer mag, könne nun visuelle Elemente im selben Stil hinzufügen oder die dargestellte Szene in eine neue Richtung weiterführen. Mit Outpainting lassen sich in DALL·E Originalbilder zu großformatigen Ausführungen mit beliebigen Seitenverhältnissen erweitern.

Bereits zuvor vermochten Nutzerinnen und Nutzer des Bildgenerators Änderungen innerhalb von Bildern vorzunehmen. Die entsprechende Funktion heißt Inpainting, und sie macht keinen Unterschied zwischen im System erzeugten Bildern und solchen, die Nutzer fertig hochladen. Das neue Feature Outpainting funktioniert ähnlich und soll beim Erweitern der Dimensionen eines Bildes die darin vorhandenen visuellen Elemente erkennen. Auch Schatten, Texturen, Farbgebung, Stil, Stimmung, Technik und Spiegelungen finden Berücksichtigung, sodass der Kontext eines Originalbildes – soweit gewünscht – nahtlos erhalten bleibt.

Namensangleichung DALL·E / DALL·E 2

Ein Detail ist bemerkenswert: In der Ankündigung von Outpainting lässt das Team des kalifornischen KI-Unternehmens – wie zuletzt häufiger geschehen – die Versionsnummer 2 unter den Tisch fallen und schreibt schlicht "DALL·E". Ein öffentliches Statement dazu hat es seitens OpenAI bislang nicht gegeben; zumindest nicht, soweit der Redaktion bekannt.

In dieser Newsmeldung ist mit DALL·E entsprechend das System zur KI-Synthese generell und auf dem neuesten Stand (von DALL·E 2) gemeint, nicht der gleichnamige Vorgänger. Das Anfang 2021 veröffentlichte Release "DALL·E 1" trug in der Kommunikation nach außen keine Versionsnummer.

Laut OpenAI nutzen bereits über eine Million Menschen das KI-System, um aus Textanweisungen Bilder und Kunstwerke zu erstellen. Ende Juli 2022 war DALL·E in die kostenpflichtige Betaphase gewechselt. Regelmäßige Erweiterungen des Funktionsradius erfolgen seither, so wie nun Outpainting. Systeme zur Text-zu-Bilderstellung wie DALL·E erzeugen Bilder über Textprompts, setzen also Beschreibungen eines gewünschten Bildinhalts visuell um.

Die User teilen dem System ihre Vorstellungen zum gewünschten Bild in natürlicher Sprache schriftlich mit (als Textprompt), wobei das System Wünsche nach einem bestimmten Stil, Künstler, Texturen, Materialbeschaffenheit, Lichteinfall, Epochen, Szenen und Bildtechniken einbezieht. Das Spektrum ist breit und reicht von abstrakter Kunst, neuen Werken alter Meister und allen Arten von Stilfusion bis hin zur fotorealistischen Synthese von Lebe- und Fabelwesen, die so nie existiert haben.

DALL·E (2) wird im Internet als kreatives Werkzeug gefeiert. Gleichzeitig befeuert es regelmäßig kontroverse Diskussionen durch sein Potenzial zum Erstellen von Deepfake und schädlichem Content, aber auch durch das Thema Bias und wie OpenAI damit umgeht. So hatte das Unternehmen im Sommer 2022 auf Systemebene Anstrengungen unternommen, um mehr Diversität bei Personenbildern zu erreichen.

Das Problem potenziellen Missbrauchs und der Manipulation gilt für bild- und texterzeugende KI-Systeme gleichermaßen, die teils erst nach langer geschlossener Phase ihr Public Release erleben und in der Regel nicht ungefiltert an die Öffentlichkeit gelangen. So hatte OpenAI erst im November 2021 sein großes Sprachmodell GPT-3 ohne Warteliste, also ohne Überprüfung der an Nutzung Interessierten, verfügbar gemacht.

Wenige Wochen später legte OpenAI einen Filter über GPT-3, der wilden Output zähmen sollte (InstructGPT). Großteils gilt das Einhegen bei DALL·E (2) als gelungen, was allerdings Kritikern zufolge mit Qualitätsverlust einherging, und OpenAI reduzierte den Output von zuvor sechs auf maximal vier Bilder je Prompt.

Beim Nachjustieren dürfte das Unternehmen zwischenzeitlich etwas über das Ziel hinausgeschossen sein. Einige Nutzer erhielten im Sommer offenbar willkürlich auftretende Bildzusätze, die mit ihren Textanweisungen nicht übereinstimmten. Einige der Betroffenen teilten Bilder mit überraschendem Inhalt. Richard Zhang von Adobe Research konnte im Juli 2022 durch gezieltes Prompten rekonstruieren, dass OpenAI wohl auf der Ebene der Textprompts, also eingabeseitig, etwas verändert hatte.

Zhang erstellte mit DALL·E Bilder von Menschen, die Schilder hochhalten. Die Textergänzung ließ er dabei offen, wodurch er das System – in seinen Worten – dazu überlistete, hinterlegten Text sichtbar zu machen. Ihm zufolge tauchten Textbausteine wie "Black", "Female" und "Black Male" auf den Schildern auf. Das Phänomen wurde zwar nicht bei jedem Versuch greifbar – da Zhang aber die Worte nicht eingegeben hatte, geht er davon aus, dass DALL·E diese Prompts auf Systemebene automatisch beigefügt hat (Quelle: New Scientist).

DALL·E ist Closed Source, daher können Researcher nicht direkt hineinschauen und müssen zu Tricks greifen – die Ergebnisse und daraus gezogenen Schlüsse sind mit der gebotenen Vorsicht zu genießen. Zum jetzigen Zeitpunkt können die Bildgeneratoren noch keinen Text als Grafik frei erzeugen. Bilder, die Text enthalten, zeigen meist unleserliches Kauderwelsch, das Schrift optisch ähnelt, aber keinen Sinn ergibt.

Eine klar lesbare Visualisierung von Worten auf Schildern ist daher ein Indiz, dass der visualisierte Text dem System intern als Textanweisung vorliegt. In welchem Ausmaß OpenAI die Textprompts von Nutzern modifiziert hat (ohne das zu deklarieren) und inwiefern das Problem überraschenden Outputs inzwischen behoben wurde, ist offen.

DALL·E setzt zurzeit neue Maßstäbe beim sprachgelenkten Erstellen von Bildern. Mit Outpainting dürfte dem KI-Unternehmen aus San Francisco erneut ein technischer Durchbruch gelungen sein, der seine Marktführerschaft beim Bildgenerieren untermauert. Der Visual AI Composer ist aber nicht das einzige Text-zu-Bild-System. So gibt es unter anderem Midjourney, Craiyon (ehemals dall·e mini – trotz des Namens nicht von OpenAI), Disco Diffusion, Google Imagen (noch ohne öffentliche Demo) und das neu erschienene Stable Diffusion.

KI frei zugänglich: Stable Diffusion

Der frei verfügbare Text-zu-Bildgenerator Stable Diffusion erregt seit August 2022 Aufsehen. KI-gestützte Bildgenerierung hört jedoch nicht bei statischen Bildern auf, sondern berührt die Produktion von Bewegtbild und Filmen. Neue Tools und Techniken für das Filmemachen zeichnen sich ab: Mit Text-zu-Video-Produktionen ist verstärkt zu rechnen, unter anderem das Team hinter Stable Diffusion arbeitet Tweets zufolge an der Weiterentwicklung des eigenen Modells für einen solchen Einsatz. Der frühere KI-Chef von Tesla Andrej Karpathy führte ein mit Stable Diffusion erstelltes Video vor, für das er den Code auf GitHub bereitstellt.

Hinter Stable Diffusion steht ein Zusammenschluss von Forschungsteams aus dem Umfeld einer Computer-Vision-Gruppe der Universitäten Heidelberg und München, zudem unterstützen die Community von LAION und die Gruppe EleutherAI das Projekt. Die Graswurzelbewegung EleutherAI hatte während der geschlossenen Phase von GPT-3 bereits quelloffene Alternativen hervorgebracht, namentlich GPT-J und GPT-Neo. Hierzu hatten Mitarbeiter des Heidelberger Start-ups Aleph Alpha wesentliche Codespenden beigetragen. Hinter Stable Diffusion steht mit Stability AI erneut ein kleineres privates KI-Unternehmen, das das Projekt finanziell trägt. Das Motto der Firma lautet schlicht: "AI to augment the potential of humanity."

Stand bei den großen Sprachmodellen

Beim Anbieter der proprietären Systeme GPT-3 und DALL·E wiederum sitzt seit September 2020 Microsoft als Geldgeber mit ihm Boot: Der Konzern hatte sich für eine Milliarde US-Dollar die exklusiven Rechte an GPT-3 gesichert, um dessen Fähigkeiten unter anderem in Cloudprodukten zu nutzen. Zwischenzeitlich stellte Microsoft in Zusammenarbeit mit Nvidia das Megatron-Turing Natural Language Generation Model vor (MT-NLG), und hinter den Kulissen arbeitet OpenAI an GPT-4. OpenAI hatte bis zum Release seines Modells GPT-2 noch tieferen Einblick in seine Forschung gewährt, seither hält die Forschungsabteilung des Unternehmens sich bedeckt. Zum Entwicklungsstand von GPT-4 kursieren bislang nur Andeutungen und Vermutungen.

Als europäische Alternative bietet das deutsche Unternehmen Aleph Alpha große Sprachmodelle mit multimodalen Fähigkeiten (Luminous mit MAGMA), und in Frankreich ist auf staatliche Initiative hin gemeinsam mit Huggingface das Modell BLOOM entstanden (etwas verhaltenes Nutzerfeedback hierzu auf Twitter). Ein Konsortium rund um den KI-Bundesverband hat ein mit 400 Millionen Euro veranschlagtes Großprojekt namens LEAM konzipiert, dessen Finanzierung aber wohl noch unsicher ist. Aufgrund hoher Anforderungen an die Hardware ist es in dem rasch wachsenden, kostenintensiven Feld offenbar nicht ganz einfach, sich zu behaupten und etwas Eigenständiges aufzubauen, statt den Zugang zu großen Modellen anderer oder die zum Entwickeln und Betreiben der eigenen Modelle nötige Rechenpower bei einem der Hyperscaler zu mieten.

Letzteres sorgt seit seinem Forschungs- und Public Release im August für Aufsehen. Anders als die Produkte von OpenAI ist Stable Diffusion allgemein verfügbar und frei zugänglich. Es steht unter einer Open-Source-Lizenz, die kommerzielle Nutzung gestattet – die Urheberrechte verbleiben bei der Person, die das Bild erstellt (Fragen ergeben sich auch hier, zum Beispiel wenn Prompts durch Dritte wiederverwendet werden).

Die Ergebnisse sind von hoher Qualität, sodass OpenAI hier im Bereich der Bilderzeugung zumindest durch die freie Zugänglichkeit und potenzielle Reichweite des Tools Konkurrenz erwächst. Die Suchmaschine Lexica erschließt bereits über fünf Millionen Bilder und Prompts, die aus Stable Diffusion stammen. Seit dessen Erscheinen vor wenigen Wochen gibt es eine Gründungswelle neuer Start-ups und Projekte, die grafische Nutzeroberflächen (GUIs), Web-APIs und Dienste um das freie Modell herum bauen. Das Ökosystem wächst rasch. Und auch das Team hinter Stable Diffusion denkt offenbar bereits über eine Outpainting-Funktion, wie der Gründer von Stability AI, Emad Mostaque, in einem Tweet andeutet:

Dass Alternativen entstehen (insbesondere als Open Source), belebt den Markt und ist für Wissenschaft, Wirtschaft und Gesellschaft eine gute Nachricht. Diese Entwicklung gilt es weiterhin zu beobachten.

Outpainting von David Schnurr

(Bild: OpenAI)

Positiv anzumerken ist, dass OpenAI im Blogpost zu Outpainting einige der Künstler namentlich nennt, deren Werke die Ankündigung illustrieren. Zumindest in der vorgelagerten Testphase behielt sich OpenAI die Rechte an den von Nutzern erzeugten Bildern vor, die infolge im Netz ohne Angaben der ursprünglichen Urheber kursierten.

Eine Auswahl von Bildern, die mit DALL·E Outpainting geschaffen wurden, findet sich im Blogeintrag zur Ankündigung. Unter anderem im Twitterprofil des OpenAI-Mitarbeiters David Schnurr sind weitere schöne Beispiele zu finden.

(sih)