Quelloffene KI: Warum die Techbranche darüber streitet, was das überhaupt ist

06.04.2024 07:00 Uhr Edd Gent

Roboter vor blauem Hintergrund — (Bild: AlesiaKan/ Shutterstock.com)

Die Antwort auf diese Frage dürfte über unsere Zukunft mitentscheiden: Google, Meta und andere Konzerne diskutierten über Open-Source-AI.

"Open Source" scheint das neue Modewort in der KI zu sein. Konzerne wie Meta oder Google fühlen sich verpflichtet, quelloffene Sprachmodelle zu entwickeln, während Elon Musk OpenAI verklagt, weil es GPT-4 und seine Nachfolger eben nicht freigeben will. Gleichzeitig gibt es eine wachsende Zahl von Start-ups und Promis aus der KI-Szene, die sich als Open-Source-Verfechter positionieren. Das grundlegende Problem: Niemand kann sich darauf einigen, was "quelloffene KI" überhaupt bedeutet – und das könnte entscheidende Bedeutung für die Zukunft der Branche, womöglich der gesamten Menschheit haben.

Auf den ersten Blick verspricht Open-Source-KI eine Zukunft, in der sich jeder an der Entwicklung modernster Technologie beteiligen kann. Das könnte die Innovation beschleunigen, die Transparenz erhöhen und den Nutzern mehr Kontrolle über Systeme geben, die schon bald viele Aspekte unseres Lebens verändern könnten. Aber was heißt das überhaupt? Was macht ein KI-Modell zu Open Source [1] – und was eben nicht? Solange sich die Technikbranche nicht auf eine Definition geeinigt hat, können mächtige Konzerne das Konzept leicht nach eigenen Bedürfnissen zurechtbiegen – und es könnte sogar zu einem Instrument werden, das die Vorherrschaft der heute führenden Akteure eher festigt als begrenzt.

Die Open Source Initiative (OSI) [2] spielt dabei eine Art Schiedsrichter. Sie gilt als Hüter des quelloffenen Gedankens. Die 1998 gegründete gemeinnützige Organisation hat dazu eine weithin akzeptierten Reihe von Regeln aufgestellt, die bestimmen, ob eine Software als Open Source gelten kann oder nicht. Kürzlich hat die Gruppe ein 70-köpfiges Team an Forschern, Juristen, politischen Entscheidungsträgern, Aktivisten und Vertretern großer Technologiekonzerne wie Meta, Google und Amazon an einen Tisch gebracht. [3] Gemeinsam will man eine Arbeitsdefinition für Open-Source-KI ausarbeiten.

Die Open-Source-Community ist sehr divers. Sie umfasst quasi alle Schichten, vom kleinen Hacktivisten bis zum Fortune-500-Unternehmen. Während man sich bei den übergreifenden Prinzipien weitgehend einig sei, sagt Stefano Maffulli, Geschäftsführer des OSI, werde es immer deutlicher, dass "der Teufel im Detail steckt". Ergo: Bei so vielen konkurrierenden Interessen ist es keine leichte Aufgabe, eine Lösung zu finden, die alle zufriedenstellt – und gleichzeitig garantiert, dass die größten Unternehmen fair mitspielen. Das Fehlen einer eindeutigen Definition hat die Konzerne nämlich kaum daran gehindert, den Begriff zu übernehmen und zu dehnen.

Unscharfe Kriterien

Im Juli vergangenen Jahres hat beispielsweise Meta sein Llama-2-Modell, das der Konzern selbst als Open Source bezeichnet, frei zugänglich gemacht [4] und seither einige weitere KI-Tools auf dieselbe Art publiziert. "Wir unterstützen die Bemühungen der OSI, Open-Source-KI zu definieren", sagt Jonathan Torres, stellvertretender Leiter der Meta-Rechtsabteilung für die Bereiche KI, Open Source und Lizenzierung. Man freue sich darauf, weiterhin an diesem Prozess "zum Nutzen der Open-Source-Gemeinschaft auf der ganzen Welt" teilzunehmen. Das steht wiederum in deutlichem Gegensatz zum Konkurrenten OpenAI, der im Laufe der Jahre immer weniger technische Details über seine führenden Modelle preisgegeben hat [5] und dabei stets Sicherheitsbedenken anführte. "Wir geben leistungsstarke KI-Modelle erst dann frei, wenn wir die Vorteile und Risiken sorgfältig abgewogen haben", sagte ein Sprecher. Das gelte für Missbrauchsmöglichkeiten und Auswirkungen auf die Gesellschaft.

Andere führende KI-Unternehmen wie Stability AI und die deutsche Firma Aleph Alpha [6] haben ebenfalls Modelle veröffentlicht, die als Open Source bezeichnet werden, während Hugging Face eine große Bibliothek frei verfügbarer KI-Modelle anbietet [7]. Bei Google bietet man seine leistungsstärksten Modelle wie Gemini [8] und PaLM 2 eher geschlossen an, hat aber mittlerweile Gemma [9] frei zugänglich gemacht. Es ist so konzipiert, dass es mit Metas Llama 2 mithalten kann. "Open Source" nennt Google Gemma aber nicht, stattdessen sei das Modell "offen", so der Internetgigant.

Es gibt erhebliche Meinungsverschiedenheiten darüber, was hier wirklich offen bedeutet. Zunächst einmal sind sowohl Llama 2 als auch Gemma mit Lizenzen ausgestattet, die die Möglichkeiten der Nutzer einschränken. Das ist ein grundlegender Widerspruch zu den Open-Source-Prinzipien: Eine der Schlüsselklauseln der OSI-Definition verbietet die Auferlegung von Beschränkungen auf der Grundlage von Anwendungsfällen. Und die Kriterien sind selbst für Modelle, die nicht an solche Bedingungen geknüpft sind, eher unscharf. Das Konzept von Open Source wurde schließlich entwickelt, um sicherzustellen, dass Entwickler Software ohne Einschränkungen nutzen, im Quellcode begutachten, verändern und weitergeben können. KI-Systeme funktionieren jedoch grundlegend anders. Schlüsselkonzepte aus der Open-Source-Branche ließen sich daher nicht ohne Weiteres auf Künstliche Intelligenz übertragen, sagt Maffulli.

Eine der größten Hürden ist die schiere Anzahl der technischen Bestandteile, die in den heutigen KI-Modellen enthalten sind. Alles, was man benötigt, um an einer normalen Software herumzubasteln, ist der zugrunde liegende Quellcode. Doch je nach Zielsetzung kann die Arbeit an einem KI-Modell den Zugriff auf das vorab trainierte Modell, seine Trainingsdaten oder den Quellcode zur Vorverarbeitung dieser Daten umfassen. Hinzu kommt der Code für den Trainingsprozess selbst, die dem Modell zugrunde liegende Architektur sowie eine Vielzahl anderer, subtilerer Details. "Welche Bestandteile Sie benötigen, um Modelle sinnvoll zu überblicken und zu verändern, bleibt der Interpretation überlassen. Wir haben aber festgezurrt, welche Grundfreiheiten oder Grundrechte wir ausüben wollen", sagt Maffulli. Doch die Umsetzung sei noch unklar.

Ein ganzes Ökosystem

Die Klärung dieser Debatte wird von entscheidender Bedeutung sein, wenn die KI-Gemeinschaft die gleichen Vorteile nutzen will, die Entwickler aus "normaler" Open-Source-Software gezogen haben, sagt der OSI-Chef. Diese beruhe auf einem breiten Konsens über die Bedeutung des Begriffs. "Eine [Definition], die von einem großen Teil der Branche respektiert und angenommen wird, schafft Klarheit", sagt er. Und Klarheit bedeute geringere Kosten bei der Einhaltung solcher Open-Source-Vorschriften, weniger Reibungsverluste und ein gemeinsames Verständnis der Technologie. Das Problem: Das reicht wohl nicht. "Der mit Abstand größte Knackpunkt sind die Daten. Alle großen KI-Firmen haben einfach vortrainierte Modelle veröffentlicht, ohne die Datensätze, auf denen sie trainiert wurden." Für diejenigen, die sich für eine strengere Definition von Open-Source-KI einsetzen, schränkt dies die Nutzung deutlich ein. Mancher meint gar, dass dies kein Open Source mehr darstellt.

Andere Mitglieder der Community argumentieren, dass eine einfache Beschreibung der Daten oft ausreicht, um ein Modell zu überblicken. Man müsse es nicht unbedingt von Grund auf neu trainieren, um Änderungen vorzunehmen. Fertige Modelle werden schon jetzt routinemäßig durch einen als Finetuning bekannten Prozess angepasst, bei dem sie teilweise auf einem kleineren, oft anwendungsspezifischen Datensatz zusätzlich trainiert werden. Metas Llama 2 ist ein gutes Beispiel dafür, sagt Roman Shaposhnik, CEO des Open-Source-KI-Unternehmens Ainekko und Vizepräsident für den Bereich Recht bei der Apache Software Foundation, die am OSI-Prozess beteiligt ist. Meta habe zwar nur ein vortrainiertes Modell veröffentlicht, aber eine florierende Community von Entwicklern habe das Modell heruntergeladen, angepasst und ihre Änderungen dann an andere weitergegeben. "Die Leute verwenden es in allen möglichen Projekten. Es gibt ein ganzes Ökosystem um Llama 2 herum", sagt er. "Wir müssen es also umdefinieren. Ist es vielleicht "halb offen?"

Es mag zwar technisch möglich sein, ein Modell ohne die ursprünglichen Trainingsdaten anzupassen. Doch sei es eben nicht im Sinne von Open Source, den Zugang zu einem wichtigen Bestandteil einer Software einzuschränken, meint Zuzanna Warso, Forschungsdirektorin der gemeinnützigen Organisation Open Future, die ebenfalls an der OSI-Definition arbeitet. Es sei auch fraglich, ob man wirklich die Freiheit habe, ein Modell genauer zu studieren, ohne zu wissen, auf welchen Informationen es aufgebaut wurde. "Das ist ein entscheidender Bestandteil des ganzen Prozesses", sagt sie. "Wenn uns Offenheit am Herzen liegt, sollten wir uns auch um die Offenheit der Trainingsdaten kümmern."

Der ganze Open-Source-Kuchen

Schwer zu verstehen ist es jedoch nicht, warum Unternehmen, die sich selbst als Open-Source-Champions positionieren, nur ungern Trainingsdaten zur Verfügung stellen. Der Zugang zu hochwertigen Trainingsdaten gilt als großer Engpass für die KI-Forschung und ist ein Wettbewerbsvorteil für größere Unternehmen, den sie unbedingt behalten wollen, sagt Warso. Gleichzeitig bietet Open Source eine Reihe von Vorteilen, die diese Unternehmen gerne für ihre KI-Systeme nutzen wollen. Denn oberflächlich betrachtet sei der Begriff "Open Source" für viele Menschen eben positiv besetzt. Es laufe da eine Art "Open Washing" ab, sagt Warso, ähnlich wie beim "Green Washing" durch Konzerne.

Es kann aber auch erhebliche Auswirkungen auf die Profite eines Unternehmens haben. Ökonomen der Harvard Business School haben kürzlich beschrieben, dass Firmen durch Open-Source-Software bislang fast 9 Billionen Dollar an Entwicklungskosten eingespart haben [10], weil sie ihre Produkte auf hochwertiger freier Software aufbauen konnten, anstatt sie von Grund auf selbst zu entwickeln. Für größere Konzerne kann das Open-Sourcing ihrer Software, damit sie von anderen Entwicklern wiederverwendet und geändert werden kann, dazu beitragen, ein leistungsfähiges Ökosystem um ihre Produkte herum aufzubauen, sagt Warso. Das klassische Beispiel sei Googles Open-Sourcing seines mobilen Betriebssystems Android, [11] das Googles dominante Position im Herzen der Smartphone-Revolution zementiert hat. Mark Zuckerberg von Meta wiederum räumt dies ausdrücklich seinen Aktionären gegenüber ein: "Open-Source-Software wird oft zu einem Industriestandard. Und wenn andere Unternehmen ihre Produkte standardisiert mit unserem Stack bauen, wird es für uns wiederum einfacher, neue Innovationen in unsere Produkte zu integrieren."

Regulatorische Behandlung

Entscheidend sei auch, dass Open-Source-KI an einigen Stellen eine günstigere regulatorische Behandlung erfahre, sagt Warso und verweist auf den kürzlich verabschiedeten AI Act der EU [12], der bestimmte Open-Source-Projekte von einigen der strengeren Anforderungen freistellt. Eine Kombination aus einer gemeinsamen Nutzung vortrainierter Modelle durch die Community in Kombination mit einer Zugangsbeschränkung zu den Trainingsdaten sei für viele Unternehmen geschäftlich sinnvoll, meint die Expertin Warso. Aber es hat eben auch einen Beigeschmack: Da will jemand den ganzen Kuchen. Und wenn diese Strategie dazu beiträgt, die ohnehin schon dominante Position großer Technikkonzerne zu festigen, ist es schwer vorstellbar, wie das mit dem zugrunde liegenden Ethos von Open Source zusammenpasst.

"Wir sehen Offenheit als eines der Werkzeuge, um die Machtkonzentration zu bekämpfen", sagt Warso. "Wenn die Definition dazu beitragen soll, diese Machtkonzentration in Frage zu stellen, dann wird die Frage der Daten noch wichtiger". Ainekko-Chef Shaposhnik hält einen Kompromiss für möglich. Ein großer Teil der Daten, die zum Trainieren der größten Modelle verwendet werden, stammt bereits aus offenen Quellen wie Wikipedia oder Common Crawl, das Daten aus dem Internet sammelt und frei zugänglich macht. "Unternehmen könnten die offenen Ressourcen, die zum Trainieren ihrer Modelle verwendet werden, einfach mit anderen teilen." So sei eine vernünftige Annäherung möglich, die es Entwicklern ermögliche, die Modelle zu studieren und zu verstehen.

Doch es gibt ein Problem: Die mangelnde Klarheit darüber, ob das Training nicht Urheber- und Eigentumsrechte von Autoren oder Künstlern verletzt [13]. Das könne zu rechtlichen Komplikationen führen, sagt Aviya Skowron, Leiterin der Abteilung Politik und Ethik bei der gemeinnützigen KI-Forschungsgruppe EleutherAI, die ebenfalls am OSI-Definitionsprozess beteiligt ist. Das lasse Entwickler davor zurückschrecken, offen mit den Daten umzugehen und sorgt für Intransparenz. Stefano Zacchiroli, Professor für Informatik am Polytechnischen Institut in Paris, der ebenfalls an der OSI-Definition mitwirkt, ist sich der Notwendigkeit eines pragmatischen Vorgehens bewusst. Er ist deshalb überzeugt, dass eine vollständige Beschreibung der Trainingsdaten eines Modells das absolute Minimum sei, um es als Open Source zu bezeichnen. "Strengere Definitionen von Open-Source-KI stoßen möglicherweise nicht auf breite Zustimmung."

Die Community entscheidet

Letztlich müsse die Community entscheiden, was sie erreichen will, sagt Zacchiroli: "Folgt man einfach der Entwicklung des Marktes, um zu verhindern, dass der Begriff "Open-Source-KI" vereinnahmt wird? Oder versucht man, den Markt zu mehr Offenheit zu bewegen und den Nutzern mehr Freiheiten zu geben?" Doch was ist im KI-Zusammenhang überhaupt der Sinn von Open Source? Es sei fraglich, inwieweit eine Definition von quelloffener KI das Spielfeld einebnen könne, sagt Sarah Myers West, Co-Geschäftsführerin des AI Now Institute. Sie ist Mitverfasserin eines im August 2023 veröffentlichten Papers, in dem die mangelnde Offenheit vieler Open-Source-KI-Projekte aufgezeigt [14] wurde. Darin wird auch hervorgehoben, dass die gigantischen Datenmengen und die notwendige hohe Rechenleistung für das Training kleinen Akteuren Steine in den Weg legen – und zwar unabhängig davon, wie offen die Modelle sind.

Myers West ist überzeugt, dass es auch an Klarheit darüber mangelt, was man mit der Open-Source-Publikation von KI-Systemen zu erreichen hofft. "Geht es um Sicherheit, um die Möglichkeit, akademische Forschung zu betreiben – oder um die Förderung eines stärkeren Wettbewerbs?", fragt sie. "Wir müssen viel genauer wissen, was das Ziel ist, und wie die Öffnung eines Systems die Verfolgung dieses Ziels verändert." Sie befürchtet, dass die OSI diese Diskussion eher meidet. Im bisherigen Entwurf einer Definition werden "Autonomie und Transparenz" als Hauptvorteile genannt, aber Maffulli wollte auf Nachfrage nicht erklären, warum das OSI diese Konzepte für so wichtig hält. Das bislang erreichte Dokument enthält auch einen Abschnitt mit der Überschrift "Fragen, die nicht in diesen Geltungsbereich fallen", der deutlich macht, dass sich die OSI-Definition nicht mit Fragen der "ethischen, vertrauenswürdigen oder verantwortungsvollen" KI befassen will.

"Das ist nicht unsere Aufgabe"

Laut Maffulli hat sich die Open-Source-Gemeinschaft in der Vergangenheit darauf konzentriert, den reibungslosen Austausch von Software zu ermöglichen und sich nicht in Debatten darüber zu verzetteln, wofür Software verwendet werden sollte. "Das ist nicht unsere Aufgabe." Doch diese Fragen lassen sich nicht einfach wegwischen, egal, wie sehr man sich im Laufe der Jahrzehnte bemüht hat. Die Vorstellung, dass Technologie neutral ist und Themen wie Ethik "außerhalb des Bereichs" liegen, sei ein Mythos, meint Warso. Sie vermutet, dass dieser Mythos aufrechterhalten werden muss, damit die lose Gemeinschaft der Open-Source-Verfechter nicht zerbricht. "Ich glaube, die Leute wissen, dass [der Mythos] nicht wahr ist, aber es braucht ihn, um voranzukommen."

Außerhalb der OSI haben andere Entwickler einen anderen Ansatz gewählt. Im Jahr 2022 führte eine Gruppe von Forschern die Responsible AI License [15] (RAIL) ein, die Open-Source-Lizenzen ähneln, aber Klauseln enthalten, die bestimmte Anwendungsfälle für KI einschränken. Ziel ist es, so der KI-Forscher Danish Contractor, der die Lizenz mitentwickelt hat, zu verhindern, dass Programmierer KI für Projekte verwenden, die man für "unangemessen" oder "unethisch" halten kann. "Als Forscher würde ich es überhaupt nicht mögen, wenn mein Material in einer Weise verwendet würde, die schädlich für andere ist", sagt er. Und er ist damit nicht allein: Eine kürzlich von ihm und Kollegen durchgeführte Analyse der KI-Hosting-Plattform von Hugging Face [16] ergab, dass 28 Prozent der Modelle bereits RAIL verwenden.

Die Lizenz, die Google seinem Modell Gemma beigefügt hat, verfolgt einen ähnlichen Ansatz. In den Nutzungsbedingungen sind verschiedene verbotene Anwendungsfälle aufgelistet, die als "schädlich" angesehen werden, was das "Engagement für eine verantwortungsvolle Entwicklung von KI" anbetrifft, so das Unternehmen in einem kürzlich veröffentlichten Blogbeitrag [17]. Das Allen Institute for AI wiederum hat ebenfalls seine eigene Auffassung einer offener Lizenzierung entwickelt. Seine ImpACT-Lizenzen [18] schränken die Weiterverbreitung von Modellen und Daten auf der Grundlage potenzieller Risiken ein.

Verschiedene Grade der Offenheit

Angesichts der Tatsache, dass sich KI von herkömmlicher Software unterscheidet, ist ein gewisses Maß an Experimentierfreudigkeit mit verschiedenen Graden der Offenheit unvermeidlich und "wahrscheinlich gut für den Bereich", meint Luis Villa, Mitbegründer und Leiter der Rechtsabteilung beim Open-Source-Softwaremanagementunternehmen Tidelift. Er befürchtet jedoch, dass eine Verbreitung von "offenen" Lizenzen, die untereinander nicht kompatibel sind, die reibungsfreie Zusammenarbeit, die Open Source so erfolgreich gemacht hat, zunichtemachen könnte. Dies könnte Innovationen im Bereich der KI verlangsamen, Transparenz verringern und es kleineren Akteuren so erschweren, auf der Arbeit anderer aufzubauen.

Letztlich ist Villa deshalb der Meinung, dass sich die Community auf einen einzigen Standard einigen muss, da die Industrie diesen sonst einfach ignorieren und selbst entscheiden werde, was "offen" bedeutet. Er beneidet die OSI daher nicht. Als die Initiative einst die Definition von Open-Source-Software aufstellte, hatte sie den Luxus der Zeit und wurde von außen kaum beachtet. Heute steht die Künstliche Intelligenz [19] fest im Fadenkreuz sowohl großer Unternehmen als auch der Aufsichtsbehörden.

Wenn sich die Open-Source-Community nicht schnell auf eine Definition einigen kann, werden andere kommen und eine finden, die ihren eigenen Bedürfnissen entspricht. "Die werden dieses Vakuum füllen", sagt Villa. "Mark Zuckerberg wird uns dann allen sagen, was seiner Meinung nach 'offen' bedeutet." Der Mann habe schließlich ein riesengroßes Megafon.

(jle [21])

URL dieses Artikels:
https://www.heise.de/-9665378

Links in diesem Artikel:
[1] https://www.heise.de/thema/Open-Source
[2] https://opensource.org/
[3] https://opensource.org/blog/open-source-ai-definition-weekly-update-mar-11
[4] https://www.heise.de/news/Code-Llama-Meta-gibt-KI-fuer-das-Schreiben-von-Code-frei-9284369.html
[5] https://www.heise.de/meinung/OpenAI-ist-jetzt-nicht-mehr-so-open-7622818.html
[6] https://www.heise.de/hintergrund/Tech2go-Podcast-Wie-eine-europaeische-Version-der-KI-GPT-3-aussehen-koennte-6199542.html
[7] https://www.heise.de/news/Hugging-Face-startet-offenes-Robotik-Projekt-9656959.html
[8] https://www.heise.de/news/Bard-ist-tot-es-lebe-Googles-Gemini-9622735.html
[9] https://www.heise.de/news/Ueberraschender-Edelstein-Google-stellt-KI-Modell-Gemma-vor-9634860.html
[10] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4693148&ref=thestack.technology
[11] https://arstechnica.com/gadgets/2018/07/googles-iron-grip-on-android-controlling-open-source-by-any-means-necessary/
[12] https://www.heise.de/news/AI-Act-Mitgliedstaaten-stimmen-Kompromiss-einstimmig-zu-9617206.html
[13] https://www.heise.de/hintergrund/Wie-sich-Kuenstler-gegen-die-Nutzung-ihrer-Bilder-als-KI-Vorlagen-wehren-7306494.html
[14] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4543807
[15] https://www.licenses.ai/
[16] https://arxiv.org/pdf/2402.05979.pdf
[17] https://arxiv.org/pdf/2402.05979.pdf
[18] https://allenai.org/impact-license
[19] https://www.heise.de/thema/Kuenstliche-Intelligenz
[20] https://www.instagram.com/technologyreview_de/
[21] mailto:jle@heise.de