"Many-shot jailbreaking": KI-Modelle überlisten durch zu viele Fragen

Wenn man einem KI-Chatbot viele Fragen stellt, kann man ihn offenbar damit überlisten, seine Leitplanken zu überwinden.

In Pocket speichern vorlesen Druckansicht 26 Kommentare lesen
Symbolbild KI: Ein Umriss eines Menschenkopfes ist mit Symbolen gefüllt, rundherum schwirren abstrakte Darstellungen von Molekülen

(Bild: whiteMocca / shutterstock.com)

Lesezeit: 3 Min.

Sicherheitsforscher von Anthropic haben eine neue Art herausgefunden, wie man Große Sprachmodelle (Large Language Models, LLMs) und damit Chatbots überlisten kann. Sie nennen das "many-shot jailbreaking", weil es genau so simpel ist: Man muss dem Chatbot nur viele Fragen stellen und irgendwann antwortet er auch auf jene, die er eigentlich nicht beantworten sollte.

Laut des Papers, das KI-Anbieter Anthropic veröffentlicht hat, besteht das Problem vor allem seit der Vergrößerung des Kontextfensters der Sprachmodelle. Zunächst konnten LLMs nur wenige Sätze bis Absätze an Inhalten verarbeiten, inzwischen sind es sehr große Mengen an Text und Informationen. Gemini und Claude können etwa in den größten Versionen der Modelle jeweils bis zu einer Millionen Token verarbeiten. Token sind Wörter oder Teile von Wörtern, das heißt, bei einem Kontextfenster von einer Million können die LLMs bereits ganze Bücher erfassen.

Bekannt ist, dass die großen Modelle besonders gute Ergebnisse liefern, wenn man ihnen möglichst viele Beispiele zur Hand gibt, was man für eine Antwort wünscht. Das heißt, die Prompts werden entsprechend lang. Und offenbar verwirrt es die LLMs und weicht ihre eigentlich eingebauten Schranken und Leitplanken auf. Fragt man einen der gängigen Chatbots, wie man eine Bombe bauen kann, verwehren sie in der Regel die Antwort. Fragt man dieselbe Frage in einem Kontext von dutzenden anderen Fragen samt Antworten, kommt mit einer deutlich höheren Wahrscheinlichkeit eine Antwort, die man tatsächlich zum Bauen einer Bombe nutzen kann.

Anthropic zeigt im Paper, wie die "many-shot Jailbreaking" ausschaut.

(Bild: Anthropic)

Warum das funktioniert, ist nicht ganz klar. Das gehört zum Blackbox-Teil, der in Großen Sprachmodellen steckt. Es ist nicht die einzige Technik, mit der man LLMs angreifen kann. Anthropic hat laut des Papers andere Anbieter bereits über die neu entdeckte Angriffsmöglichkeit informiert. Sie haben neben dem eigenen Modell Claude auch die von OpenAI, Google, Mistral und Meta getestet.

"Few-shot Jailbreaking" nennt sich die gegenteilige Taktik, bei der einem Sprachmodell eine Rolle vorgegaukelt wird oder im Dialog Informationen herausgekitzelt werden, die das Modell normalerweise ebenfalls nicht beantworten sollte. Anthropic hofft, die neuen Erkenntnisse werden von der Community genutzt, um auf ihre Ursache hin erforscht zu werden und schreibt abschließend im Paper: "Wir hoffen, dass unsere Arbeit die Gemeinschaft dazu anregt, eine Vorhersagetheorie zu entwickeln, warum MSJ (many-shot Jailbreaking) funktioniert, gefolgt von einer theoretisch begründeten und empirisch geprüften Abhilfestrategie. Es ist auch möglich, dass MSJ nicht vollständig abgeschwächt werden kann."

(emw)