StableLM: Stability AI veröffentlicht große KI-Sprachmodelle als Open Source

Die Firma hinter Stable Diffusion hat zwei Sprachmodelle Open Source veröffentlicht. Sie stehen unter Copyleft-Lizenz, ihre MMLU-Werte überzeugen noch nicht.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen

"A Stochastic Parrot, flat design, vector art" – Stable Diffusion.

(Bild: Stability AI)

Update
Lesezeit: 9 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Stability AI, eine der Firmen hinter dem K-Bildgenerator Stable Diffusion, hat mit StableLM zwei große Sprachmodelle als Open Source veröffentlicht: Die beiden Large Language Models (LLM) umfassen je 3 und 7 Milliarden Parameter. Bei dem Release handelt es sich um Alphaversionen. Entwickler können sie unter Beachtung der Lizenz für Forschungs- und kommerzielle Zwecke frei verwenden, untersuchen und adaptieren.

StableLM-3B und StableLM-7B stehen unter der Lizenz CC BY-SA-4.0: Das ist eine Copyleft-Lizenz, die festlegt, dass die unter ihr stehende Software in jeder Format vervielfältigt und weiterverbreitet werden darf. Wer mit StableLM arbeitet, darf die Modelle verändern und weiterbearbeiten für beliebige Zwecke, auch kommerziell. Allerdings erben Ableger und Produkte stets die Copyleft-Lizenz.

Das bedeutet, dass von StableLM abgeleitete neue Modelle den ursprünglichen Urheber (Stability AI) und die Lizenz in unveränderter Form nennen und weitergeben müssen. So ist es untersagt, solcherart erstellte Software zu Closed Source zu machen, etwa zum eigenen geistigen Eigentum zu erklären oder an der geerbten Lizenz Änderungen vorzunehmen. Diese Vorgaben sind rechtlich durch keine zusätzlichen Klauseln oder technischen Verfahren auszuhebeln, die CC BY-SA-4.0 gilt als eine besonders starke Copyleft-Lizenz.

Wie vom StabilityAI-CEO Emad Mostaque angekündigt soll StableLM eine offene, transparente und skalierbare Alternative zu proprietären KI-Modellen wie denen von OpenAI bieten. Modelle im Umfang von 15 bis 65 Milliarden Parametern sollen in absehbarer Zeit folgen, ist dem Blogpost zum Release zu entnehmen. Die Modelle der StableLM-Serie sollen Text und Quellcode erzeugen können und lassen sich laut Mostaque für zahlreiche darauf aufbauende Anwendungen nutzen. Mit den verhältnismäßig kleinen LLMs will Stability dem Blogeintrag zufolge zeigen, dass auch kleinere Modelle zu hoher Leistung fähig sind, sofern sie ein angemessenes Training durchlaufen haben und über eine effiziente Architektur verfügen.

Hierzu eine einschränkende Anmerkung: Die beiden StableLM-Modelle waren ohne technischen Bericht und Leistungswerte veröffentlicht worden. Einige Mitglieder des Forums von Hacker News hatten nach dem Release auf eigene Faust Vergleichstests vorgenommen und liefern eine private Evaluierung, die Ergebnisse lesen sich ernüchternd. "Garcia98" hat StableLM-base-alpha-3b in der Open-Source-Version (nicht in der lizenzierten feingetunten Version) dem MMLU-Vergleichstest unterzogen, in seinen Worten sind die Ergebnisse "underwhelming compared to other open source models", reichen also womöglich nicht an andere offene Sprachmodelle heran. So erreichte StableLM-3B (Base Alpha) lediglich eine durchschnittliche Genauigkeit von 25,6 Prozent. Googles Modelle Flan-T5-XL (ebenfalls 3 Milliarden Paramenter) schneidet bei MMLU mit 49,3-prozentiger Treffsicherheit deutlich besser ab. Aber sogar das deutlich kleinere Open-Source-Modell Flan-T5-Small (80 Millionen Parameter) schneidet mit 29,4-prozentiger Accuracy überzeugendere Benchmarkwerte als StableLM-3B in der jetzt veröffentlichten Open-Source-Version.

Zwar sei MMLU nur ein Benchmark unter vielen, allerdings gehen die Foristen von Hacker News offenbar nicht davon aus, dass StableLM-3B auf anderen Vergleichsskalen deutlich besser performen könnte. Abschließend teilt der ehrenamtliche Tester zur Einordnung noch Links zu den Vergleichswerten weiterer offener und proprietärer Modelle.

Ein Hacker-News-Leser hat StableLM-3B in der Open-Source-Alphaversion getestet und kommt zu einer ernüchterten Erkenntnis: Bei MMLU kommt StableLM-3B auf deutlich schlechtere Leistungswerte als gleich große und sogar kleinere offene Modelle von Google.

(Bild: Hacker News)

Stability AI hatte zuvor die Arbeit der KI-Graswurzel EleutherAI unterstützt, die Anfang April 2023 mit Pythia eine Serie kleinerer KI-Basismodelle für die Forschung veröffentlicht hatten. Pythia-12B ist unter anderem das Ausgangsmodell für Dolly 2.0 von Databricks, und OpenAssistant von LAION fußt auf den quelloffenen Pythia-Modellen. Auch Erfahrungen mit früheren Open-Source-Modellen wie GPT-J und GPT-NeoX von EleutherAI hätten zum jetzigen Release von StableLM beigetragen.

StableLM wurde auf einem neuen experimentellen Datensatz trainiert, der auf dem bekannten, 800 Gigabyte großen Datensatz "The Pile" für das Modellieren großer Sprachmodelle aufbaut, allerdings mit insgesamt 1,5 Billionen Token an Inhalt etwa dreimal so umfangreich ist wie dieser. Der Datensatz gilt als problematisch, da in ihm wohl auch urheberrechtlich geschützte Werke enthalten sind (welche Konsequenzen sich daraus für Open-Source-Lizenzen ergeben, ist derzeit noch offen und betrifft auch andere Projekte, die diesen Datensatz oder Common Crawl aus dem Internet verwenden). Mit der Größe des Trainingsdatensatzes liegt StableLM gleichauf mit dem proprietären KI-Modell LLaMA von Meta AI, das ausgewählten Forschungsprojekten zur Verfügung gestellt wurde und durch einen Leak auch mit semi-offiziellen bis illegalen Ablegern im Netz kursiert.

Ein weiteres Open-Source-Projekt arbeitet mit einem selbst erstellten Datensatz in ähnlichem Umfang: Mitte April 2023, wenige Tage vor dem Release von StableLM, hat eine hochkarätige Forschungskooperation aus den USA und Kanada mit Partnern den Trainingsdatensatz für RedPajama veröffentlicht, der 1,2 Billionen Token umfasst und ebenfalls das LLaMA-Paper als Vorbild nahm. RedPajama plant, eine quelloffene Modellserie auf dem neuesten Stand der Technik mit starken Leistungswerten zu veröffentlichen und das nicht freigegebene LLaMA so in Eigenregie in freier Lizenz nachzubauen. Anders als StableLM steht zumindest der Datensatz von RedPajama unter der Apache-2.0-Lizenz, damit trainierte Modelle und Anwendungen können uneingeschränkt auch kommerziell genutzt werden.

Das an RedPajama beteiligte Large-Scale Artificial Intelligence Open Network (LAION e.V.) hatte zuvor angekündigt, dass Mitglieder des Netzwerkes große KI-Sprachmodelle auf dem neuesten Stand der Technik und mit vergleichbaren Fähigkeiten zu den leistungsfähigsten kommerziellen Angeboten erstellen wollen. Eine Petition zum Einrichten eines internationalen Hochleistungs-Rechenclusters für KI läuft zurzeit, auch als Antwort auf den Offenen Brief des Future of Life Institute, unterzeichnet von Elon Musk und weiteren Prominenten, die eine Entwicklungspause für große KI-Modelle gefordert hatten.

Zugleich hatte Musk eine eigene KI-Unternehmung angekündigt, die unter der Domain x.ai und mit dem Arbeitsnamen TruthGPT in Konkurrenz zu OpenAI treten soll. Dass es sich hierbei um Open-Source-KI handeln wird, ist eher unwahrscheinlich.

Neben den Alphaversionen von StableLM veröffentlicht Stability AI eine Reihe von Forschungsmodellen, die mit Anweisungen feingetuned sind. Diese Forschungsmodelle greifen auf Kombinationen verschiedener Open-Source-Datensätze für agentische Konversations-KI zu, nämlich auf die Datensätze von Alpaca, GPT4All, Dolly, ShareGPT und HH. Diese Modelle sind ausdrücklich nicht für kommerzielle Zwecke geeignet und dürfen nur zu Forschungszwecken verwendet werden. Ihre Lizenz ist eine nichtkommerzielle CC BY-NC-SA 4.0, analog zur Lizenz von Alpaca der Universität Stanford (einem der zahlreichen LLaMA-Ableger, die zu Forschungszwecken seitens Meta AI erlaubt waren).

Im Blogeintrag zum Release finden sich einige Konversationsbeispiele von StableLM-7B, dem größeren der beiden nun veröffentlichten Modelle. StableLM reiht sich nahtlos in die Bewegung inzwischen entstehender quelloffener KI-Modelle ein. Drei Schlagwörter liefert Stability AI zur Zielsetzung: Transparenz, Zugänglichkeit und Unterstützung. Die Open-Source-Modelle seien dazu da, die Nutzer zu unterstützen, nicht hingegen, sie zu ersetzen. Es gehe um effizente, spezialisierte und praktische KI-Anwendungen, die auch mit kleineren Modellen umzusetzen sei. Am Rennen um "Gott-gleiche KI" wolle man sich ausdrücklich nicht beteiligen. Der Fokus liegt auf Alltagsanwendungen und einem Einsatz, der die Produktivität erhöht sowie die Menschen kreativer werden lässt, so die Stellungenahme im Blogeintrag.

Für Forscher ist relevant, dass sie den so veröffentlichten Modellen "unter die Haube schauen" können, um gemeinschaftlich die Nachvollziehbarkeit und Erklärbarkeit von KI-Modellen zu verbessern, Risiken zu identifizieren und Sicherheitsmaßnahmen zu entwickeln. Privater und öffentlicher Bereich können Open-Source-Modelle an ihre Zwecke anpassen (Finetuning), ohne sensible Daten zu teilen oder die Kontrolle der KI-Fähigkeiten preiszugeben.

StableLM ist im GitHub-Repository von Stability AI verfügbar. Ein technischer Bericht und Benchmarks zum Leistungsvergleich liegen zurzeit noch nicht vor, sollen aber "in der nahen Zukunft" nachgereicht werden. Nutzer haben das Vergleichen teils bereits selbst in die Hand genommen, zur Leistungsfähigkeit von StableLM-3B kursieren unterschiedliche Einschätzungen. Die MMLU-Werte sind jedoch, wie oben beschrieben, nicht überzeugend und es bleibt abzuwerten, wie die Modelle oder ihre größeren Versionen bei weiteren Aufgabensammlungen abschneiden werden.

Gleichzeitig mit dem Release beginnt ein Crowdsourcing-Programm für Reinforcement Learning mit menschlichem Feedback (RLHF), einer üblichen Praxis zum Finetunen großer Sprachmodelle. Als Vorbild dienen hierbei Community-Arbeiten wie bei OpenAssistant, dessen Projekt in gemeinschaftlicher Arbeit einen hochwertigen, qualitätsgesicherten und frei zugänglichen Basisdatensatz für KI-Assistenten veröffentlicht hat. Weitere Details lassen sich dem Blogeintrag entnehmen.

(sih)