Blick in die Blackbox: KI-Trainingsdatensatz C4 schöpft auch aus trüben Quellen

Colossal Clean Crawled Corpus (C4) dient Sprachmodellen als Trainingsgrundlage. Die Washington Post hat den Datensatz untersucht – er enthält Ungereimtheiten.

In Pocket speichern vorlesen Druckansicht 8 Kommentare lesen

(Bild: Blackboard/Shutterstock.com)

Lesezeit: 10 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

KI-Chatbots lernen Informationen über die Welt aus geschriebener Sprache. Was ihren Sprachmodellen beim Training an Textmaterial einverleibt wurde, entscheidet maßgeblich über die Qualität ihrer späteren Auskünfte und der Konversation mit Menschen. Große Corpora an Texten, Büchern und aus dem Internet zusammengekratztem Material dienen als Maschinenfutter. Nicht alle Anbieter großer Sprachmodelle sprechen offen darüber, womit sie ihre Produkte trainiert haben – OpenAI etwa hält die Datenbasis von GPT-4 und ChatGPT geheim, weshalb Forscher hier und bei anderen proprietären (geschlossenen, meist kommerziellen) Modellen von einer Blackbox sprechen. Allerdings sind auch Open-Source-Projekte nicht immer präzise bei ihren Angaben, und zunehmend tauchen Modellableger etwa des geleakten LLaMA auf, die rein mit synthetischen (über die OpenAI-API generierten), destillierten Datensätzen trainiert wurden.

Ein Investigativteam der Washington Post hat einen Blick in die Blackboxes geworfen und dafür 15 Millionen Webseiten untersucht, die als Quelle eines besonders grundlegenden Datensatzes für das Training im Machine Learning dienen: Colossal Clean Crawled Corpus (C4) ist eine per Webscraping aus dem Internet abgeschöpfte Datensammlung englischsprachiger Texte, die aus einem einzelnen Schnappschuss (der Momentaufnahme indizierter Webseiten) besteht. Der Schnappschuss wurde nachträglich stark bereinigt und gefiltert, Daten wurden ausgeschlossen, Blocklisten angewandt, Doubletten entfernt, Identitäten unkenntlich gemacht – rund 750 Gigabyte umfasst der fertige Datensatz. Webseiten, die nicht zumindest zu 99 Prozent englischsprachigen Content aufweisen, wurden ausgeschlossen.

Die Journalistin Nitasha Tiku, der Journalist Kevin Schaul und die Datenreporterin Chen Szu Yu haben gemeinsam mit Forschern des Allen Institute for AI die Webseiten untersucht, aus denen C4 seine Daten bezieht, und stießen auf allerhand Ungereimtheiten. So ist über 200 Millionen mal das Copyrightsymbol enthalten und einige Piratenseiten wie b-ok.org, die wissentlich Urheberrecht brechen, um Inhalte illegal verbreiten, finden sich unter den Domains, von denen der Datensatz Inhalte bezieht – auf Rang 190 (mit 14 Millionen Token und 0,009 Prozent Anteil am Gesamtcorpus). Mindestens 27 weitere Seiten, die in den USA offiziell wegen Fälschungen und Produktpiraterie bekannt sind, finden sich im Datensatz.

Die Hälfte der zehn am umfangreichsten abgegrasten Webseiten stammen von großen Tageszeitungen (NY Times auf Platz 4, gefolgt von Plätzen 6 bis 9: Los Angeles Times, The Guardian, Forbes, Huffpost und Washington Post auf Platz 11), zu den Hauptquellen zählt (auf Platz 2 von 15 Millionen) Wikipedia – die nicht frei zugängliche Online-Bibliothek scribd.com liegt auf Platz 3. Besonders bedenklich fanden die Journalisten etwa das Abschöpfen von Daten von Webseiten mit Wählerinformationen aus Colorado und Florida, die sich in den Top-100 der C4-Quellen befinden. Webseiten wie Kickstarter und Patreon, durch die Künstler und Kreative sich über Spenden und monatliche Abos ein Einkommen erwirtschaften, werden für C4 abgeschöpft. Hierbei könnten Marketingideen und künstlerische Projekte, also geistiges Eigentum, abgegriffen werden. Mit Blick auf die zahlreichen Copyright-Hinweise, die sich im Datensatz identifizieren ließen, dürfte der Streit um die Urheberschaft und deren Schutz weiter befeuert werden.

Den C4-Datensatz dominiert laut Nitasha Tiku und ihren Kollegen aus dem Internet zusammengekratzter Text aus den Gebieten Journalismus, Medizin, Content Creation, Wissenschaft, Public Relations/ Werbung und Marketing – Bereichen also, die durch KI-Textgeneratoren als besonders betroffen gelten und in denen die Automatisierung der Textproduktion noch zu größeren Umbrüchen führen dürfte.

Besonders interessant ist eine interaktive Infografik, die die Inhalte von C4 nach Kategorien aufschlüsselt, die Größe der Felder entspricht dabei ihrem mengenmäßigen Anteil am Datensatz. Wirtschaft und Industrie (16 Prozent) sowie Technologie (15 Prozent), aber auch News und Medien (13 Prozent), Kunst und Unterhaltung (11 Prozent) sowie Forschung und Gesundheit (9 Prozent) machen einen Großteil aus. Beruf und Bildung (7 Prozent) liegt etwa gleichauf mit Hobbies und Freizeit (8 Prozent) sowie Heim und Garten (6 Prozent). Auch der Bereich Recht und Regierung ist vertreten (4 Prozent). In allen Bereichen dominieren US-amerikanischen Webseiten und englischsprachiger Content. Das Investigativteam und die Allen-Forscher konnten nicht alle Webseiten kategorisieren, da sie teils nicht mehr im Internet abrufbar sind.

Blick in die Blackbox eines Datensatzes, mit dem KI-Chatbots trainiert werden: Millionen von Webseiten, geclustert nach Themengebieten. In der Washington Post ist die Infografik anklickbar und gibt beim Scrollen der Seite verschiedene Informationsschichten preis.

(Bild: Washington Post)

Kurioserweise ist die Datenquelle, die mit Abstand am meisten zum Corpus beiträgt, eine Suchmaschine von Google für weltweite Patente im Volltext (patents.google.com): 720 Millionen Token stammen aus dieser Quelle, was 0,46 Prozent des gesamten Datensatzes entspricht. Zum Vergleich: Die (englischsprachige) Wikipedia folgt auf Platz 2 mit 290 Millionen Token (0,19 Prozent Anteil am Datensatz). Ein Token ist die kleinste Einheit für Sinnabschnitte in Wörtern, Bildern oder Sätzen, in die Inhalte beim maschinellen Lernen zerteilt werden. Die Token lassen sich in einen Vektorraum einbetten, in dem sie später für das Modell wiederauffindbar sind. Diese Technik (Tokenisierung) ist grundlegend im Natural Language Processing (NLP), so etwa zum Erstellen von Transformer-Modellen wie ChatGPT oder in Form von Token-Klassen für die Textklassifikation in BERT-Transformern.

Medien- und Propagandaseiten, die nicht für hohe Vertrauenswürdigkeit bekannt sind, sind aus dem Datensatz nicht oder nicht vollständig ausgefiltert: So finden sich Beiträge von Russia Today (RT.com auf Rang 65) und der rechtspopulistischen Seite Breitbart News (Rang 159) im Datensatz wieder. White Supremacy ist mit vdare.com in Spuren vertreten (Rang 993), wie auch extreme Ausrichtungen verschiedener religiöser Gruppen, die teils Hass auf andere Gruppen und Vorurteile predigen.

Zahlreiche private Blogs, auch im Tech-Bereich, finden Eingang in C4. Soziale Netzwerke wie Facebook und Twitter hingegen sind nicht vertreten, da sie das Scrapen zum Trainieren von KI-Modellen untersagt haben. Was im Inneren von Konzernen wie Facebook und Google mit den Nutzerdaten angestellt wird, weiß niemand genau. Auch Elon Musk kündigte nun an, ein eigenes KI-Unternehmen zu gründen, um mit einem Chatbot namens TruthGPT OpenAIs ChatGPT Konkurrenz zu machen. Dabei scheint nicht ausgeschlossen, dass dann Twitterdaten Teil der Trainingsbasis werden. Die Filter des Datensatzes C4 haben der WP-Recherche zufolge Quellen von Verschwörungserzählungen übersehen, 4chan.org, threecentpartriots.com (sehr weit hinten in den Rängen) und die rassistische Seite stormfront.org sind vertreten.

Schaul und Szu Yu haben eine Suchmaschine gebaut, mit der sich die URLs der rund 15 Millionen referenzierter Webseiten auffinden lassen. Die Suchmaschine gibt quantitative Auskunft: Für jede Website, deren URL zum Abschöpfen von Daten C4 nutzt, gibt sie die absolute Anzahl der Token sowie ihren prozentualen Anteil am gesamten Datensatz an. C4 ist ein Standarddatensatz, der bislang als eher unkritisch für das Trainieren von Modellen galt und grundlegend ist für zahlreiche große Sprachmodelle (LLM) wie mutmaßlich auch GPT-4 und ChatGPT, die Texte nach Vorgaben erzeugen. C4 diente als Trainingsgrundlage für KI-Systeme wie Googles Flan-T5, Facebooks LLaMA und fließt in die Datensätze gemeinnütziger Open-Source-Initiativen ein, etwa beim neuen KI-Projekt RedPajama.

Trainingsdatensatz von RedPajama im Vergleich zu LLaMA nach Datenquellen

(Bild: Heise)

Dabei steuert C4 jeweils nur einen Teil der trainierten Modelldaten bei, die stets zahlreiche weitere Datensammlungen einspeisen. GPT-3 etwa enthielt 41 CommonCrawl-Durchläufe (Schnappschüsse aus dem Internet, die zu verschiedenen Zeitpunkten eingeholt wurden) sowie die gesamte englischsprachige Wikipedia und einen Datensatz mit Weblinks, die Reddit-Nutzer als besonders nützliche Informationsquellen bewertet hatten, etwa Sammlungen frei zugänglicher Romane unbekannterer Autoren.

Wie die Trainingsdaten sich zusammensetzen, von welcher Qualität und in welchem Umfang bestimmte Inhalte einbezogen worden sind, gilt als zentral für Einschätzungen, wie KI-Systeme zu ihrem Output kommen. Die genaue Untersuchung der Trainingsdaten ist daher nicht nur laut Tiku, Schaul und dem Forschungsteam des Allen Institute for AI ein wichtiger Beitrag, um die Prozesse im Inneren großer Sprachmodelle nachvollziehbar und verständlich zu machen. Mit Blick auf die Entscheidungen von Gesetzgebern und für KI-Regulierung dürfte das relevant sein.

Da die Ersteller des Datensatzes nicht-englischsprachiges Material laut Projektbeschreibung bei Hugging Face explizit ausschlossen (English only), ist eine gesonderte Betrachtung deutschsprachiger Medien nicht zielführend – wenngleich einige deutsche Medien rudimentär vertreten sind: Von Heise etwa stammen 71.000 Token, das entspricht 0,00005 Prozent des Datensatzes und ließe sich von GPT-4 heute in zwei Suchanfragen generieren. Die BILD-Zeitung ist mit 42.000 Token vertreten, Golem.de mit 7.300, die ZEIT mit 5.800 und Chip.de mit 190. Einzig der SPIEGEL ist stärker vertreten, mit 4,1 Millionen Token: Das dürfte daran liegen, dass hier zahlreiche englischsprachige Artikel vorhanden sind.

Bei Token ist nicht ganz klar, welche Untereinheit gemeint ist: Token können ein Wort, ein Satz oder die sinntragenden Bestandteile eines Wortes sein. Mit ihnen lassen sich ungeordnete Textinformationen für das Machine Learning aufschließen. Was dieser Mangel an Informationen aus Kulturräumen, in denen Englisch nicht die Hauptsprache ist, bedeutet, wäre Stoff für einen anderen Artikel. Die überwiegend in den USA und englischsprachigen Ländern hergestellten großen Sprachmodelle haben im Bereich der Fremdsprachen blinde Flecken, und Sprache transportiert nicht nur Grammatik, sondern auch Themen, Werte und Vielfalt – daher bleibt zu bezweifeln, ob Datensätze wie der kolossale Kraul europäische Realitäten überhaupt angemessen abbilden können.

Die vollständige Recherche lässt sich in der Washington Post nachlesen. Darin eingebettet findet sich im letzten Drittel das Suchwerkzeug zum Prüfen von Webseiten im C4-Datensatz. Der C4-Datensatz ist wissenschaftlich dokumentiert: "Documenting the English Colossal Clean Crawled Corpus" und "Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus", beide von 2021. Bereits diese Forschungsarbeiten erschlossen den Datensatz mit einem interaktiven Web-Interface einer indizierten Kopie von C4.

(sih)