KI-Update: Das Problem mit Prompt Injections

Prompt Injections sind die wohl größte Gefahr für große Sprachmodelle – und damit auch für die Nutzer. Warum sie so gefährlich sind, erklären wir im Deep-Dive.

In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 2 Min.

"Arrr, das Meer rauscht heute wieder wie ein gekentertes Boot am Grund." Solche Quatschsätze könnte ein KI-Chatbot sagen, wenn man ihn nach dem Wetter fragt – und wenn er mittels Prompt Injection dazu gebracht wurde, wie ein Pirat zu reden. Das ist aber nur die harmlose und gegebenenfalls sogar spaßige Variante. Große Sprachmodelle (LLM) lassen sich infizieren. Dazu bedarf es herzlich wenig, sondern eigentlich nur ein paar ausgeklügelte Sätze, in denen man ihnen sagt, was sie tun sollen. Die Gefahr lauert darin, dass LLMs zwar von den Anbietern Schranken und Grenzen aufgezeigt bekommen haben, diese aber mit den wenigen Sätzen ausgehebelt werden können. Besonders problematisch: Es gibt keine Lösung für das Problem. Auch die großen Anbieter und ihre Modelle, die beispielsweise hinter ChatGPT, Bing oder Bard stecken, sind nicht gefeit vor solchen Angriffen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Ganz ohne ein Arrrr lassen sich im schlimmsten Fall auch Kreditkarten-Daten von Menschen, die einfach nur eine Webseite besuchen, erbeuten. Das funktioniert, wenn beispielsweise ein Chatbot mit der Seite agiert und diese ihn beziehungsweise das LLM dahinter infiziert. Dabei ist es möglich, dass die Anweisungen etwa im Quellenmaterial stecken. Betrüger können Prompt Injections also für kriminelle Zwecke nutzen.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Sylvester Tremmel von der c't erklärt uns in diesem Deep-Dive, wie sich mittels Prompt Injections die Anweisungen eines großen Sprachmodells modifizieren lassen. Ein bisschen Tüftelei bedarf das doch. "Es ist inzwischen fast schon zu einem Sport geworden, herauszufinden, welche Anweisungen Sprachmodelle mit auf den Weg bekommen haben", sagt Sylvester Tremmel. Wer sich ausprobieren möchte, kann das mit Gandalf machen. Ein Spiel mit 8 Leveln, in denen man ein Passwort erfragen muss – mit jeweiligen Einschränkungen, was man darf und was nicht. Es erinnert ein bisschen an Tabu.

Große Sprachmodelle haben freilich auch Einschränkungen, wenn es darum geht, strafbare Inhalte auszugeben. Doch auch hier können die Sicherheitsvorkehrungen umgangen werden und beispielsweise Anleitungen für den Bau von Bomben, rassistische und hetzerische Inhalte generiert werden. Sylvester Tremmel warnt, es könnte zu automatisierten Angriffen kommen. Tatsächlich haben Wissenschaftler der Carnegie-Mellon-Universität, des Centers for AI Safety und des Bosch Center for AI direkt nach der Aufzeichnung des Gesprächs nachweisen können, dass sie mit simplen Zeichenfolgen an eine Benutzerabfrage die Schutzvorkehrungen aller großen Sprachmodelle aushebeln konnten. Das Besondere: die Befehle waren vollständig automatisiert.

(emw)