"Many-shot jailbreaking": KI-Modelle überlisten durch zu viele Fragen

Wenn man einem KI-Chatbot viele Fragen stellt, kann man ihn offenbar damit überlisten, seine Leitplanken zu überwinden.

(Bild: whiteMocca / shutterstock.com)

04.04.2024, 12:51 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

Sicherheitsforscher von Anthropic haben eine neue Art herausgefunden, wie man Große Sprachmodelle (Large Language Models, LLMs) und damit Chatbots überlisten kann. Sie nennen das "many-shot jailbreaking", weil es genau so simpel ist: Man muss dem Chatbot nur viele Fragen stellen und irgendwann antwortet er auch auf jene, die er eigentlich nicht beantworten sollte.

Laut des Papers, das KI-Anbieter Anthropic veröffentlicht hat, besteht das Problem vor allem seit der Vergrößerung des Kontextfensters der Sprachmodelle. Zunächst konnten LLMs nur wenige Sätze bis Absätze an Inhalten verarbeiten, inzwischen sind es sehr große Mengen an Text und Informationen. Gemini und Claude können etwa in den größten Versionen der Modelle jeweils bis zu einer Millionen Token verarbeiten. Token sind Wörter oder Teile von Wörtern, das heißt, bei einem Kontextfenster von einer Million können die LLMs bereits ganze Bücher erfassen.

Große Kontextfenster ermöglichen die Jailbreaks

Bekannt ist, dass die großen Modelle besonders gute Ergebnisse liefern, wenn man ihnen möglichst viele Beispiele zur Hand gibt, was man für eine Antwort wünscht. Das heißt, die Prompts werden entsprechend lang. Und offenbar verwirrt es die LLMs und weicht ihre eigentlich eingebauten Schranken und Leitplanken auf. Fragt man einen der gängigen Chatbots, wie man eine Bombe bauen kann, verwehren sie in der Regel die Antwort. Fragt man dieselbe Frage in einem Kontext von dutzenden anderen Fragen samt Antworten, kommt mit einer deutlich höheren Wahrscheinlichkeit eine Antwort, die man tatsächlich zum Bauen einer Bombe nutzen kann.

Grafik der Fragetechnik — Anthropic zeigt im Paper, wie die "many-shot Jailbreaking" ausschaut.

(Bild: Anthropic)

Warum das funktioniert, ist nicht ganz klar. Das gehört zum Blackbox-Teil, der in Großen Sprachmodellen steckt. Es ist nicht die einzige Technik, mit der man LLMs angreifen kann. Anthropic hat laut des Papers andere Anbieter bereits über die neu entdeckte Angriffsmöglichkeit informiert. Sie haben neben dem eigenen Modell Claude auch die von OpenAI, Google, Mistral und Meta getestet.

"Few-shot Jailbreaking" nennt sich die gegenteilige Taktik, bei der einem Sprachmodell eine Rolle vorgegaukelt wird oder im Dialog Informationen herausgekitzelt werden, die das Modell normalerweise ebenfalls nicht beantworten sollte. Anthropic hofft, die neuen Erkenntnisse werden von der Community genutzt, um auf ihre Ursache hin erforscht zu werden und schreibt abschließend im Paper: "Wir hoffen, dass unsere Arbeit die Gemeinschaft dazu anregt, eine Vorhersagetheorie zu entwickeln, warum MSJ (many-shot Jailbreaking) funktioniert, gefolgt von einer theoretisch begründeten und empirisch geprüften Abhilfestrategie. Es ist auch möglich, dass MSJ nicht vollständig abgeschwächt werden kann."

Lesen Sie auch

OWASP Top 10 für KI: Das sind die größten Risiken

KI-Update: Das Problem mit Prompt Injections

A,Person's,Head,Covered,By,An,Ai-labeled,Dark,Cloud

Bericht: NIST warnt vor vergifteten KI-Systemen und zeigt Schutzmaßnahmen auf

(emw)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}