OpenAI stellt sein risikobasiertes Sicherheitskonzept vor

Cybersecurity, atomare, chemische, biologische und radiologische Bedrohung, Persuasion und Model-Autonomie – das sind die Risiko-Kategorien von OpenAI.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
A,Person's,Head,Covered,By,An,Ai-labeled,Dark,Cloud

(Bild: photoschmidt/ Shutterstock.com)

Lesezeit: 4 Min.

OpenAI hat ein Paper zum eigenen Sicherheitskonzept veröffentlicht. Es ist explizit nicht abschließend, sondern wird immer weiter entwickelt. Sie selbst nennen es "Preparedness Framework", also eine Art vorbereitender Rahmen. Das Konzept folgt einem Risiko-basierten Ansatz. "Wir sind der Meinung, dass die wissenschaftliche Untersuchung der von KI ausgehenden, katastrophalen Risiken weit hinter dem zurückliegen, was wir brauchen." Dabei heißt es in der Einleitung auch, dass es proaktiv ein solches Framework brauche, um die Risiken abwägen zu können.

Zunächst werden die Risiken bewertet, dafür sollen Evaluations- und Monitoring-Lösungen entwickelt werden. Bei der Bewertung werde auch bedacht, welche zukünftigen Risiken von einer KI ausgehen könnten. Zudem soll es einen kontinuierlichen Prozess geben, um Risiken zu identifizieren – auch bisher unbekannter Risiken.

Nur KI-Modelle, deren Risiken als "mittel" oder niedriger eingestuft werden, können eingesetzt werden. Modelle, deren Risiko "hoch" oder niedriger ist, dürfen weiterentwickelt werden – offensichtlich jedoch noch nicht eingesetzt. Für Modelle mit höheren Risikostufen werden besondere Sicherheitsmaßnahmen getroffen.

OpenAI stellt ein Preparedness-Team auf, dem gemeinsam mit anderen Teams die Kontrolle der Modelle obliegt. Außerdem wird es eine Safety Advisory Group geben, in der das Fachwissen des gesamten Unternehmens zusammengeführt werden soll, um die Führung und den Vorstand von OpenAI immer auf dem Laufenden zu halten. Der kurzfristige Rauswurf von openAI-Chef Sam Altman wurde vom Aufsichtsrat mit unzureichender Kommunikation begründet, weshalb das Gremium meinte, in der eigenen Arbeit gehindert worden zu sein. Der letzte Punkt des Frameworks dürfte also genau auf diesen Missstand abzielen.

OpenAI schreibt auch, dass es in diesem Framework um die katastrophalen Risiken geht, dies jedoch nur ein Teil der Sicherheitsmaßnahmen sei. Untersuchungen zum Bias in KI-Modellen, den Halluzinationen, potenziellem Missbrauch der Systeme und mehr steht weiterhin auf der Agenda des Unternehmens. Gemeinsam mit anderen Unternehmen wie Google, Microsoft und Anthropics hat OpenAI bereits einen Branchenverband gegründet, das Frontier Model Forum. Intern gibt es zahlreiche Teams, die sich um die Sicherheit der Modelle kümmern, beispielsweise in Form von Red-Teaming oder als Chefsache, bei der sich Ilya Sutskever und Jan Leike um die Kontrolle einer möglichen "Superintelligenz" kümmern sollen.

Diese Superintelligenz ist Teil einer von vier Bedrohungs-Kategorien, die wiederum nach Risiken bewertet werden: Cybersecurity, atomare, chemische, biologische und radiologische (CBRN) Bedrohungen, Persuasion, also die Überzeugung und die Autonomie von KI-Modellen. Letztere beinhaltet alle Konzepte einer sich selbst verbessernden KI. Bei der Persuasion geht es um das Risiko, das entstehen kann, wenn KI-Modelle Menschen überzeugen oder dazu bringen, ihre Überzeugung zu ändern. CBRN-Bedrohungen meint, inwieweit KI-Modelle genutzt werden können, um diese Bedrohungen zu vergrößern. Unter Cybersicherheit fallen alle potenziellen Angriffsszenarien auf Infrastrukturen mithilfe von KI.

Der Ansatz, KI-Modelle nach Risiko zu bewerten, zu überwachen und daraufhin über den Umgang mit ihnen zu entscheiden, ist im Grunde, was auch der AI Act vorgibt. Auch da geht es um einen Risiko-basierten Ansatz und Auflagen, die mit einem größeren Risiko einhergehen.

Während aber der AI Act versucht, möglichst klare Vorgaben zu machen, haben wir von OpenAI nun erstmal nur die Aussage, dass KI-Modelle mit bestimmten Risiken nicht eingeführt werden dürfen, sie dürfen aber weiter entwickelt werden. Was bei einem großen, erkannten Risiko passiert, bleibt offen.

(emw)