Wes Geistes KI?

Als OpenAI im Sommer 2020 GPT-3 vorstellte, war die Welt vom Kontextverständnis beeindruckt: Es kann auf Knopfdruck sinnvolle Texte produzieren. Das Entwicklungsteam hatte ein komplexes neuronales Netz mit Unmengen an Text aus dem Internet trainiert, ohne es auf einen Zweck auszurichten. Neben Bewunderung erntete GPT-3 Kritik, da es aus dem Internet auch Fehlinformationen, Vorurteile und Extremismen aufgesogen hatte, was mitunter obskuren Output zur Folge hat. Große Sprachmodelle enthalten neben enzyklopädischem Weltwissen auch das Spektrum menschlicher Niederungen. Ein Gegensteuern muss offenbar sein – doch an der Art und Weise des wertegeleiteten Beeinflussens (Value-Targeting) scheiden sich die Geister.

Ende 2021 hatte OpenAI die API zu GPT-3 kommerziell geöffnet, nun finden Kunden dahinter als Default eine verkleinerte, handkuratierte Ausgabe: InstructGPT, das die bekannten Probleme adressieren und „folgsamer“ sein soll. Der gezähmte Ableger sei nützlicher als die Vollversion, jubelte das Forschungsteam im eigenen Blog. Alignment, also das In-Einklang-Bringen von KI mit menschlichen Werten und Zielen, ist angesichts zunehmender Fähigkeiten der mächtiger werdenden Modelle notwendig. Ein Knigge für die KI, damit die Unflätigkeiten des World Wild Web außen vor bleiben? Klingt erst mal gut. Einige der Ausschlusskriterien dürften kulturübergreifend unstrittig sein, doch in der Gesamtschau kommt man ins Grübeln. 40 Labeler haben als Testpersonen GPT-3 nachjustiert. Antworten zu kreativen Testaufgaben werteten sie nach Vorgaben auf oder ab: Faktische Fehler, Grobheiten im Kundendienst, schädliche Ratschläge, Verhetzung und Gewalt waren unten durch. Sexualität allgemein, aber auch Meinungen und Moralvorstellungen gelten als tabu.

Es sind vor allem Werte der US-amerikanischen Westküste, die GPT-3 hier eingepflanzt werden. Was dabei herauskommt, wenn man die dem Rest der Welt überstülpt: Facebook entfernt Fotos stillender Mütter, die App des Satiremagazins Titanic flog aus dem App-Store, da ein Algorithmus sie als pornografisch eingestuft hatte, und der chinesische Anbieter TikTok blockierte Inhalte mit Bezug zu Homosexualität. Solche Einschränkungen sind keineswegs harmlos. Der Fokus auf den kleinsten gemeinsamen Nenner ist zweifelhaft: Wer seine KI maximal anpasst, entfernt neben Profanität auch Minderheitsmeinungen, Inhalte und Kultur. Wer keine Meinung zulässt, lässt auch keine Gegenmeinung zu. Der Diskurs verarmt, und die Wirklichkeit wird nicht mehr wahrheitsgetreu dargestellt.

Oft sind die wesentlichen Erneuerungen in unserer Gesellschaft zu Beginn umstritten, grenzverletzend und tabu gewesen. Daher wäre es fahrlässig, dem Modell innewohnendes Weltwissen einzuebnen auf einen mittelmäßigen Output ohne Ecken, Kanten und Anstößiges. Wobei die Deutungshoheit in der Hand einiger Labeler läge, die irgendwann einmal im Westen der USA ihre Moralvorstellungen auf ein mächtiges KI-Modell übertrugen. Überlegen wir uns für wesentliche Zeiten der Vergangenheit: Welche Werte hätte eine solche Technologie damals aufgenommen und welche zensiert?

Das Beispiel, wie man einem Kind die Mondlandung altersgerecht erklärt, oder der Auftrag, ein lustiges Gedicht über einen klugen Frosch zu schreiben, wirken sympathisch. Hier stößt man sicher nicht an die Grenzen einer weichgespülten KI. Wäre das Weichgespülte aber sinnstiftend? Wäre es noch wahr? Wer Meinungen unterdrückt, unterdrückt Vielfalt. Ich jedenfalls möchte nicht in einer Welt leben, in der Silicon Valley allen Alltagsanwendungen, in denen KI steckt, seinen Stempel aufgedrückt hat.