KI-Regulierung in China: KI-generierte Inhalte müssen wahrheitsgetreu sein

China erstellt neue Regeln für generative KI, die dem AI Act in vielem ähneln. Eine Datenbank für unerwünschte Inhalte und Nutzeridentifikation gibt es bereits.

In Pocket speichern vorlesen Druckansicht 17 Kommentare lesen

(Bild: Herr Loeffler/Shutterstock.com)

Lesezeit: 12 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Die Cyberspace Administration of China (CAC) hat neue Regeln für generative KI vorgeschlagen. Chinas höchster Internetregulator baut in dem Entwurf auf früheren Regelwerken auf, die Technologie zur Synthese von Daten (Deep Synthesis Technology) betreffen. So hatte die Cyberspace Administration bereits ausführliche Vorgaben zur Registrierung von Nutzeridentitäten gemacht, die Einrichtung einer Datenbank für unerwünschte Eingaben in KI-Systeme angeregt und die Eindämmung von Output vorgeschlagen, der die nationale Sicherheit verletze.

Die bisherigen Regulierungsansätze befassten sich primär mit potenziell schädlichem Output generativer KI-Systeme und legten den Fokus auf Staatssicherheit. Der neue Gesetzesentwurf soll einen Schritt weitergehen: Er sieht vor, dass KI-Modelle "wahrheitsgetreu und genau" sein müssen, kein Sammelsurium von Weltanschauungen zulassen und Diskriminierung unterbinden. Zunächst zielt das Dokument darauf, bestehende Baustellen wie Halluzinationen, Bias und das Ausrichten an menschliche Präferenzen (Alignment) anzugehen. Für diese drei Problemfelder gibt es zurzeit keine robusten Lösungen, da die Modelle der Transformer-Architektur durch ihr Design unter anderem zum Konfabulieren neigen und sich nicht ohne Weiteres auf rein faktische Auskünfte trainieren lassen (unklar ist, ob das überhaupt möglich ist oder künftige Modelle ganz anders konstruiert sein müssten).

Umfang und Komplexität der von der Cyberspace Administration für China vorgeschlagenen Regulierungen sind weitreichender, als bisher bekannt war. Zwei Forscher des Center for Information Technology Policy der Princeton University haben das Dokument im chinesischen Original ausgewertet und übersetzt. Sihao Huang und Justin Curl zufolge beschränken die geplanten Regulierungen sich mitnichten auf Weltanschauliches. Der Physiker und der Experte für KI-Governance haben Mitte April 2023 eine Übersetzung des chinesischen Gesetzesentwurfs ins Englische veröffentlicht (der chinesische Wortlaut stammt vom 14. April, und die vorläufige Übersetzung ist ein Draft for Comments). Ein Datum für das Inkrafttreten der geplanten Regulierung ist noch nicht bekannt.

Das in westlichen Augen heißeste Eisen ist das Vorhaben, dass in China zulässige KI-Systeme "einer bestimmten Weltanschauung entsprechen" sollen. Wie und ob das mit der Vorgabe wahrheitsgetreuer, korrekter KI-Ergebnisse in Einklang steht, bedarf gesonderter Betrachtung: Artikel 4, Absatz 1 der geplanten Regulierung besagt, dass Modelle einer bestimmten Weltanschauung entsprechen müssen. Darin ist festgelegt, dass KI-generierte Inhalte "die sozialistischen Grundwerte verkörpern" und die soziale Ordnung nicht gefährden dürfen. Das lässt sich als Schritt in Richtung einer KI-Zensur in China verstehen.

So gilt offenbar der Chatbot Ernie des chinesischen Internetkonzerns Baidu als zensiert: Auf Fragen zu historischen Ereignissen und Assoziationen zu Konzepten wie Freiheit und Demokratie gibt er laut den Princeton-Forschern von der chinesischen Wikipedia abweichende Antworten und soll auf speziell antrainierte Worteinbettungen zugreifen. Die chinesische Ausgabe von Wikipedia gilt als un- beziehungsweise wenig zensiert, allerdings blockieren staatliche Zensoren wiederholt einzelne Artikel auf Chinesisch, vor heiklen Jahrestagen sämtliche andere Sprachen oder auch alle chinesischsprachigen Artikel. Andererseits hatte China seit 2017 einen eigenen chinesischen Wikipedia-Klon mit über 20.000 Autoren wissenschaftlicher Einrichtungen als "Chinesische Enzyklopädie" in Angriff genommen.

Das bereits 2011 festgelegte Ziel des Enzyklopädie-Projekts klang ähnlich wie für die generativen KI-Systeme jetzt in der geplanten KI-Verordnung: "aktuelle Forschung und Technik aus China darstellen, für das historische Erbe werben, den kulturellen Einfluss stärken und die grundlegenden Werte des Sozialismus stärken". Das eröffnet den Blick in eine Zukunft, in der verschiedene Länder unterschiedliche generative KI-Systeme forcieren könnten, die auf Datensätzen mit unterschiedlichen Wertsystemen und Weltanschauungen trainiert wurden – mit allen Konsequenzen, die man sich dazu vorstellen kann.

Weitere Abschnitte des Entwurfs verpflichten KI-Anbieter, dass ihre Produkte Diskriminierung verhindern (Art. 4, Abschnitt 2), die Anbieter von KI-Diensten dürfen ihre Algorithmen, Daten oder Plattformen nicht für unlauteren Wettbewerb missbrauchen (Art. 4, Abschnitt 3). In Abschnitt 4 ist geregelt, dass KI-generierte Inhalte wahrheitsgetreu und genau sein sollen und die Anbieter Maßnahmen ergreifen müssen, um Falschinformationen zu verhindern. Abschnitt 5 fordert, dass generative KI die psychische Gesundheit von Menschen nicht beeinträchtigen, geistiges Eigentum nicht verletzen und nicht gegen das Recht auf Öffentlichkeit verstoßen darf.

Bemerkenswert ist dabei die staatliche Definition von Diskriminierung: Artikel 4 (Absatz 2) ist laut den Forschern aus Princeton das erste Dokument, das ausdrücklich inakzeptable Formen von Diskriminierung aufführt (nämlich Diskriminierung aufgrund von ethnischer Zugehörigkeit, Glaube, Geschlecht und weiteren Kategorien; der Begriff "Rasse" taucht hier auf Englisch auf). In der Vergangenheit hat es offenbar Ansätze zu solchen Definitionen gegeben, die es aber bislang noch nicht in den verabschiedeten Gesetzestext schafften.

Bezüglich Haftungsfragen ist Artikel 5 von Belang: Dieser sieht vor, dass sowohl Einzelpersonen als auch Organisationen, die generative KI-Modelle zum Erbringen von Dienstleistungen nutzen, für Inhalte, die gegen die Vorschriften der Verordnung verstoßen, rechtlich zur Verantwortung gezogen werden können. Diese eindeutige Zuweisung der Haftung soll offenbar Klarheit schaffen. Andererseits könnten die Vorgaben abschreckende Wirkung auf Anbieter haben, da es technisch schwierig sein dürfte, alle Vorgaben zu erfüllen. Interessanterweise gelten die Vorgaben nicht für die Entwicklung von KI, sondern für die Anbieter von Dienstleistungen, die KI einsetzen.

Absehbar sei laut der Einschätzung aus Princeton, dass sich dadurch eine größere Kluft zwischen der Spitzenforschung und den Fähigkeiten der öffentlich zugänglichen Modelle auftun dürfte. Wer in China KI-Modelle entwickelt, unterliegt deutlich weniger strengen Auflagen als jemand, der dort KI-Anwendungen auf den Markt bringt (zwischen Open Source und kommerziellen Angeboten wird offenbar kein Unterschied gemacht).

Angedacht ist (in Artikel 6), dass alle generativen KI-Modelle einer Zulassung durch die Regierung bedürfen und eine Sicherheitsbewertung durchlaufen müssen, bevor sie Nutzerinnen und Nutzern angeboten werden dürfen. Diese Vorabgenehmigung generativer KI-Systeme erinnert in Grundzügen dem, was in der Europäischen Union mit dem geplanten AI Act eintreten könnte. Allerdings scheint die geplante chinesische Regulierung zurzeit noch keine genauen Angaben zu Sicherheitsbewertungen, Kriterien und Genehmigungsprozessen zu machen. Ähnlich wie die Sanktionierung der KI-Anbieter von Dienstleistungen könnte diese Zulassungspflicht ein Nadelöhr darstellen, das die Einführung und Akzeptanz von KI-Systemen in der Öffentlichkeit abbremst.

In ihrem Kommentar zu diesem Abschnitt des Gesetzes gehen die beiden Forscher aus Princeton davon aus, dass die Cyberspace Administration Chinas sich dadurch Pufferzeit verschaffen möchte, um die Einhaltung der anderen Vorgaben wie der nationalen Sicherheitsvorschriften zu kontrollieren und eine Übereinstimmung mit der Ideologie der Chinesischen Kommunistischen Partei durchzusetzen.

Einhornbilder: Eines davon ist ein historisches Gemälde, zwei sind KI-generiert. Was davon ist Fake, was kann als "echt" gelten? Einhörner gibt es ja nicht. – Bild 1: von einem Fresko von Domenichino um 1604 (aus Wikipedia) ist "gefälscht", da sein Inhalt fiktiv ist, aber es ist "wahr und genau" als Darstellung eines Details aus dem historischen Werk. Kann es zum Trainieren von KI-Modellen verwendet werden? Bild 2 und 3 sind KI-generierte "fotorealistische" Einhörner (über OpenAIs Bildgenerator DALL·E), die ebenfalls gefälscht sind, da sie computergeneriert wurden und Einhörner nicht real sind.

(Bild: China Law Translate / Jeremy Daum)

Auch die Trainingsdaten sind ein großes Thema (Artikel 7): Der Entwurf stellt strenge Anforderungen an die Daten vor dem Training. Sie müssen dem Netzsicherheitsgesetz entsprechen (was vor allem bedeutet, dass sie kein regierungsfeindliches Material enthalten dürfen), dürfen keine Copyrights verletzen oder auf andere Art das geistige Eigentum verletzen. Sofern Trainingsdatensätze private Informationen enthalten, sei die Zustimmung der Betroffenen einzuholen. Zu guter Letzt seien Authentizität, Genauigkeit, Objektivität und Vielfalt der Daten zu garantieren.

Das schränkt die Menge der verfügbaren Daten zum Trainieren generativer KI-Systeme erheblich ein: Für Modelle wie GPT-3 und Stable Diffusion stammen viele Daten aus dem Abgrasen des Internets nach frei verfügbaren Texten und Bildern (deren Urheber dazu in der Regel nicht explizit ihr Einverständnis erteilt haben). Da hier als Beifang zahlreiche urheberrechtlich geschützte Bilder, Bücher und personenbezogene Daten in die Trainingsdatensätze Eingang fänden, wäre eine teure Bereinigung nötig, bevor chinesische Unternehmen mit dem Training überhaupt loslegen könnten.

Auch diese Anforderung ist erstaunlich nah dran an Überlegungen in der Europäischen Union, die Anforderungen an Trainingsdaten im Data Mining weiter an geltende datenschutzrechtliche Auflagen anzunähern. In Italien etwa verhängte die dortige Datenschutzbehörde einen vorübergehenden Bann gegen OpenAIs Produkte, da diese gegen Datenschutzgesetze verstoßen haben sollen und womöglich die Privatsphäre ihrer Nutzer verletzen könnten. Die gegen OpenAI in den USA eingeleiteten Untersuchungen wegen Wettbewerbsverstößen bei der Markteinführung finden in anderen Abschnitten der geplanten chinesischen Regulierung eine Entsprechung.

Hochinteressant ist auch die Anforderung, dass Trainingsdaten Vielfalt repräsentieren müssen. Nach europäischem Verständnis spielt hier eine Definition von Fairness eine Rolle. Unklar ist, wie der chinesische Gesetzgeber oder die Regierung die Vorgaben von Genauigkeit, Objektivität, Authentizität und Vielfalt messen und woran sie diese festmachen wollen.

Fakt ist, dass große Sprachmodelle mit zunehmendem Parameterumfang zugleich an Fähigkeiten hinzugewinnen, aber auch weniger steuerbar werden und öfter für überraschenden oder auch unerwünschten Output sorgen als kleinere, auf spezielle Zwecke hin trainierte Modelle. Ein weiteres Problem besteht darin, dass große kommerzielle Anbieter wesentliche Informationen über die technischen Bestandteile ihrer Modelle zurückhalten, weshalb die Sicherheitsforschung nicht über genug Informationen verfügt, um von außen Maßnahmen für etwa GPT-4 vorzuschlagen:

OpenAI lässt nur einen kleinen Kreis ausgewählter Partner hinter die Kulissen blicken und legt nicht offen, welche Art von Sicherheitsmaßnahmen sie genau nach dem Training ergriffen haben. Ob diese Anbieter das Sicherheitsthema im Griff haben, ist daher fraglich, und das Thema zu groß, um es privatwirtschaftlichen Konzernen zu überlassen. In diesem Punkt stimmen die Ansätze der in der EU geplanten KI-Verordnung mit denen in China überein.

Im weiteren Verlauf des Entwurfs ist festgelegt, dass nicht konforme KI-Modelle neben Maßnahmen wie Inhaltsfiltern zusätzliche Trainings zur "Modelloptimierung" durchlaufen müssen, um erneutes Generieren als problematisch eingestufter Inhalte zu unterbinden. Wie die beiden Experten aus Princeton abschließend bekennen, waren sie überrascht von der Bereitschaft der Cyberspace Administration, KI-Dienstleistern erhebliche Kosten für das Einhalten der Vorschriften aufzubürden. Eine vollständige Umsetzung der geplanten chinesischen KI-Verordnung würde durch strenge Datenkontrollen, Zertifizierungen, das Nach-Training von Modellen und Maßnahmen zum Ausgleichen von Verzerrungen (De-Biasing) kostspielig werden.

Dabei wäre diese Form der Gesetzgebung kein Präzedenzfall: Zuvor hatte China bereits strenge Cybersicherheitsgesetze erlassen, die chinesische Technologieunternehmen dazu zwangen, umfangreiche Moderationssysteme für Inhalte zu erstellen. Es ist davon auszugehen, dass die geplanten KI-Regeln einer ähnlichen Strategie folgen und Unternehmen dazu veranlassen sollen, in den Aufbau robuster, interpretierbarer und auf menschlichen Nutzen abgestimmte (aligned) generative KI-Systeme zu investieren. Unter der Einschränkung, dass die Abstimmung auf bestimmte Werte mit dem System und der vorherrschenden Ideologie Chinas konform sein soll.

Als Fazit steht im Raum, dass China bei der KI-Governance rasch voranzukommen scheint und die geplanten Vorschriften auch schwierige Fragen einbeziehen, die in ähnlicher Form in Europa und den USA in gesetzgeberischen Prozessen diskutiert werden. Falschinformationen, Datenschutz, der Schutz geistigen Eigentums und vor unlauterem Wettbewerb sind international die zentralen Themen, so auch in China. Zudem verfügt dieser Staat über eine mit mächtigen Befugnissen ausgestattete Behörde zur Durchsetzung. Die chinesische Gesetzgebung könnte durchaus anderen Ländern jenseits des demokratischen Spektrums als Vorbild dienen, auch mit Blick auf die einschneidenden Zensurvorgaben, die hier mit harten Sanktionen als Bedingung für den Marktzugang präsentiert werden.

Wer des Chinesischen mächtig ist, kann sich den Gesetzesentwurf im Original auf den Seiten der Cyberspace Administration of China (CAC) ansehen. Neben dem Übersetzungs-Draft von Sihao Huang und Justing Curl haben sich in den vergangenen Tagen weitere Muttersprachler auf Englisch in Kommentaren geäußert. Weitere Details finden sich in einem Beitrag im juristischen Internetportal "Inside Privacy". Das in den USA ansässige Portal hat ein mehrsprachiges Team und ein Netzwerk mit Sitz an verschiedenen Standorten in den USA sowie in London, Brüssel und Peking.

Mehr zum Thema findet sich in einem Crowdsourcing-Übersetzungsportal zu chinesischem Recht, China Law Translate, mit einem Überblick über den Gesetzesentwurf. Der Beitrag ordnet den Gesetzesentwurf weiter in die bestehende Gesetzeslandschaft in China ein und führt Beispiele auf, die veranschaulichen, wie schwierig es mit der Umsetzung und einigen grundlegenden Definitionen werden dürfte.

(sih)