Stable Attribution spürt Quellen von KI-Kunst auf – neuer Ansatz oder Holzweg?

Generative Kunst stellt die Lebensgrundlage von Künstlern auf den Kopf. Ein KI-Start-up ordnet KI-Bilder möglichen Vorlagen zu, um verwertete Werke zu würdigen.

In Pocket speichern vorlesen Druckansicht 5 Kommentare lesen
Majestic colored medium-sized birds parrots

(Bild: "Majestic coloured medium-sized birds, parrots" – Lexica.art)

Lesezeit: 9 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Stable Attribution ist ein neues Tool, das die Originalquelle von Bildern feststellen soll. Seinen Herausgebern zufolge sucht der Algorithmus die dem KI-Output ähnlichsten Bilder aus dem Trainingsdatensatz heraus, soweit dieser bekannt ist. Ziel dabei ist laut den FAQ, die Künstler, deren Werke zum Training verwendet wurden, entsprechend zu würdigen. Zurzeit kann das Werkzeug zwar wohl ähnliche Bilder finden, diese aber noch nicht einem Künstler oder Urheber entsprechend zuordnen.

Hinter dem Tool steht ein kalifornisches KI-Start-up namens Chroma, das KI verstehbar machen möchte. Den Gründern Jeff Huber und Anton Troynikov geht es nach eigenen Angaben nicht darum, selbst Rechte an Bildern anzumelden oder eigene Modelle mit Bildern zu trainieren. Künstler sind für ihren Lebensunterhalt darauf angewiesen, dass ihre Werke ordentlich zitiert werden, um für Reproduktion Tantiemen zu beziehen. Daher erklären die beiden Entwickler auf der Website ihre Motivation so: KI solle den Menschen dienen, sie nicht entfremden. Ihre Arbeit soll Informationen zugänglich machen, mit denen Bilder sich möglichen Vorbildern zuordnen lassen.

Der beim Tool hinterlegte Weblink zu der Dokumentation funktioniert zwar nicht, dafür gibt es eine Twitterseite und Huber sowie Troynikov haben ihre Profile verlinkt. Auch auf Discord sind sie zu finden. Version 1 des Werkzeugs scheint noch nicht ganz stabil zu laufen, wie die Entwickler selbst anmerken: Das Tool befindet sich in der Beta-Phase. Der Trainingsprozess sei "noisy", also verrauscht, und ihr Trainingsmaterial enthalte einige Fehler und Redundanzen. Die beiden wollen dranbleiben und das Zuordnen von Quellenmaterial verbessern, "für alle möglichen Arten von generativen Modellen". Dafür suchen sie Verstärkung. Auf der Website lässt Stable Attribution sich ausprobieren.

Dieser Methode liegt allerdings eine Annahme zugrunde, die aus technischer Sicht durchaus anfechtbar ist: Die Bilder, die KI-Generatoren erzeugen, sind in der Regel neu und liegen nicht in identischer Form im Trainingsdatensatz vor. Eine von Google und DeepMind finanzierte Studie in Kooperation mit Forschern der University of Berkeley, Princeton und ETH Zürich hatte Anfang Februar 2023 für Aufsehen gesorgt, da die Forscher mittels Textprompts Modellen wie Stable Diffusion und Google Imagen einige Bilder entlocken konnten, die im Trainingsdatensatz vorhandenen Daten stark ähnlich sehen (MIT Technology Review hatte berichtet: "KI spuckt Bilder echter Menschen und urheberrechtlich geschützter Inhalte aus").

Was zumindest in der Kurzfassung auf Twitter unter den Tisch fällt, ist, wie verschwindend gering der Anteil der Bilder ist, die hierbei als "sehr ähnlich" identifiziert werden konnten. Für Stable Diffusion gelang es den Forschern, aus 175 Millionen generierten Testbildern 109 Stück ausfindig zu machen, die Originalbildern im Trainingsdatensatz sehr ähnlich sehen (die gezeigten Beispiele sind nicht identisch, nur "near copies"). Ein Twitternutzer kommentiert das daher mit dem Hinweis, dass das gezielte Rekonstruieren von Bildern aus dem Trainingsdatensatz ähnlich schwer sei wie ein Sechser im Lotto. Ob daher die im Paper beschriebene Methode ("Extracting Training Data from Diffusion Models") bei laufenden Gerichtsprozessen zum Copyright erfolgreich zum Einsatz kommen wird, bleibt abzuwarten.

Die Bildgeneratoren malen nicht etwa vorhandene Bilder ab oder setzen eine Handvoll Vorlagen zu etwas Neuem zusammen, sondern der gesamte Datenbestand aus Millionen von Bildern diente zum Training und bestimmt anschließend in abstrahierter Form über die Model Weights das Verhalten und die Beschaffenheit des Modells – so auch seine Fähigkeit, Textvorgaben bildlich umzusetzen. Das Vorgehen dabei scheint assoziativ zu sein, ähnlich wie bei der menschlichen Bildwahrnehmung. Wenn wir uns zu einem Begriff wie "Apfel" etwas vorstellen, haben wir ein mehr oder weniger klares Bild im Kopf, aber keine genormte Vorlage. Das Bild, das uns in den Sinn kommt, hängt von unseren Erfahrungen ab und davon, was und wieviel wir bislang gesehen haben.

Keine zwei Menschen hätten das identische Bild vor Augen – selbst wenn sie gemeinsam bei einem Stück Apfelkuchen im Kaffeehaus säßen und anschließend am Naschmarkt zwei Kilo Äpfel einkauften. Fordert uns jemand auf, uns einen "gemalten Apfel", "Apfel am Meeresgrund", eine "fliegende Apfeltasse" oder vielleicht einen "literarischen Apfel" vorzustellen, werden unzählige Assoziationen greifbar – der eine sieht The Big Apple New York, die andere Adam und Eva von Ernst Fuchs oder einen Magritte-Apfel auf Leinwand.

Ähnlich assoziativ dürfte es im Inneren eines generativen KI-Systems zugehen, wenngleich der KI der eigene Gang ins Kaffeehaus mit Apfelschlangerl, Zimt und Schlagobers (also: sinnliche Welterfahrung) fehlt. In jedes KI-generierte Bild fließen Informationen ein – gelernte symbolische Zusammenhänge, wie Menschen sie herstellen würden und in vorhandenen Bildern samt Bildbeschreibungen hergestellt haben. Potenziell aus dem gesamten Trainingsdatensatz und einem schier unendlichen Pool an Kombinationsmöglichkeiten. Kein Prompt ergibt bei erneuter Eingabe das gleiche Ergebnis. Es ist möglich, einige Bilder zu identifizieren, die einem computergenerierten Bild rein äußerlich "besonders ähnlich" wirken. Aber Ähnlichkeit an sich ist noch kein Beweis für anteilige Urheberschaft an dem jeweils maschinengemachten Bild.

Die nun verbreiteten Modelle sind anhand großer Bilddatenbanken mit im Internet frei verfügbaren, oft menschengeschaffenen Vorlagen vortrainiert. Sie können insbesondere Stil recht gut nachahmen. Aber Stil ist urheberrechtlich nicht geschützt. KI-Systeme zur Bildsynthese wie DALL·E, Stable Diffusion oder Google Imagen suchen keine Bilder aus dem Trainingsdatensatz heraus und bauen sie dann zu neuen Bildern zusammen. Die Bildinformationen liegen aufgelöst in einem latenten Raum in einer Art Schwebezustand – vielleicht ähnlich wie beim Menschen im Traum.

Wäre das Zuordnen von Quellen zu Output ohne Weiteres möglich, ließe sich durch Abgleich mit Bilddatenbanken eine Wieder- und Weiterverwendung leicht dingfest machen – vielleicht sogar quantifizieren, zu welchem Anteil eine "Vorlage" den Output "beeinflusst" hat. Allerdings greifen die generativen KI-Modelle nicht auf die Originalbilder zu oder bearbeiten sie weiter (außer in einem Modus wie Inpainting oder Outpainting). Stattdessen lernen sie im Trainingsprozess, neue Bilder zu erstellen, die zu einer Texteingabe passen könnten. Inwiefern einzelne Werke aus dem Trainingsdatensatz am generierten Output Anteil hatten, lässt sich nicht durch "optische Ähnlichkeit" beantworten.

Es ist Zufall, wenn ein ausgegebenes Bild einem bestimmten Bild aus den Trainingsdaten besonders ähnelt, hatte die Redaktion in einem Hintergrundgespräch mit zwei Forschern des Stable-Diffusion-Projekts erfahren. Vorkommen kann es nur, wenn ein Bild gehäuft im Trainingsdatensatz vorlag und sich somit dem Modell stärker eingeprägt hat. Dies wäre jedoch ein unerwünschtes Verhalten – beim Erstellen von Modellen filtern die Forschungsteams Doubletten gezielt aus, um solche Ausreißer zu vermeiden.

Um die Urheberschaft bei KI-generierten Werken wird derzeit gerungen – KI-Bildgeneratoren benötigen weiterhin im vorgelagerten Training von Menschen erstellte Bilder, um an ihnen Bildinhalte und semantische Verbindungen zu Begriffen der Menschenwelt zu erlernen. Ihre Trainingsdaten sind dem Internet entnommen, was in der Form und für diesen Zweck von den Urhebern nicht beabsichtigt war. Künstler kritisieren, dass ihre Werke ohne Einverständnis zum Trainieren von Systemen dienen, die automatisiert ähnliche Bilder ausgeben können.

In die Trainingsdaten der Modelle könnten teils urheber- und markenrechtlich geschützte Werke eingeflossen sein, geben Menschen an, die meinen, ihre Werke in KI-Kunst wiederentdeckt zu haben. Geeignetes Werkzeug und nachprüfbare Methoden zum Nachweisen oder Ausschließen geschützten Materials ist daher erwünscht. Erste Sammelklagen sind ins Rollen gebracht und Getty Images verklagt Stability AI, den Hauptinvestor des von deutschen Forschern erstellen Open-Source-Modells Stable Diffusion. Um für den Output von Modellen Tantiemen aus bestehenden Umlagesystemen zu verlangen, müssten Künstler nachweisen können, dass und zu welchem Anteil ihre Werke beigetragen haben und in dem ausgegebenen Bild noch "enthalten" sind.

Auch wenn nun vereinzelt Tools und Studien erscheinen, bleibt die Grundfrage vorerst offen – da die offensichtlich ähnlichsten Bilder nie die einzige Inspirationsquelle für den Output darstellen. Für generative KI-Modelle sind verschiedene Ansätze zum Auffinden von Quellen des Outputs in Arbeit. Auch für Erzeugnisse textgebender KI wie bei ChatGPT spielt die Erklärbarkeit des Outputs eine Rolle (da die Modelle zum Halluzinieren neigen) und die Forschung bietet erste spannende Ansätze, um KI verständlicher, fairer und sicherer zu machen.

Letztlich geht es bei generativer KI um nicht weniger als die Frage, ob die Modelle ihre Trainingsdaten teils auswendiglernen – oder durch das Training eine Art Weltmodell erwerben. Wer sich für diese Frage interessiert, kann hier weiterlesen: "Stochastic Parrot or World Model? How Large Language Models learn".

Siehe auch:

(sih)