Vertrauenswürdigere und sicherere KI: Meta startet Purple Llama

Unter dem Dachprojekt Purple Llama veröffentlicht Meta zunächst einen Benchmark für Large Language Models und ein angepasstes Llama-2-Modell.

11

(Bild: Rainald Menge-Sonnentag)

09.12.2023, 10:05 Uhr

Lesezeit: 3 Min.

Developer

Von

Rainald Menge-Sonnentag

Vertrauenswürdigere und sicherere KI: Meta startet Purple Llama

Meta hat das Dachprojekt Purple Llama angekündigt, das mehr Sicherheit für KI-Modelle und -Anwendungen bringen soll. Zum Start hat das Unternehmen den Benchmark CyberSecEval und das Schutzmodell Llama Guard veröffentlicht.

Beide widmen sich der Sicherheit von LLMs (Large Language Models, große Sprachmodelle). Dem ist auch der zweite Teil des Projektnamens geschuldet: Meta hat mit LLaMA im Februar 2023 ein eigenes LLM ins Rennen geschickt. Die damalige Schreibweise stand als Akronym für Large Language Model Meta AI. Auch wenn das Modell seinerzeit nicht offen verfügbar war, erschien es bald als Torrent.

Der im August 2023 erschienene Nachfolger Llama 2 ist nicht nur leistungsfähiger, sondern Meta bietet ihn auch offiziell zum Download an. Dasselbe gilt für das auf Softwareentwicklungsaufgaben ausgerichtete Code Llama, und auch das neue Tool Llama Guard lässt sich von der Llama-Projektseite nach Registrierung herunterladen.

Purple Teaming für KI

Der erste Teil des Namens Purple Llama ist an das Purple-Teaming-Konzept für Cybersecurity angelehnt. Dabei arbeiten das Red Team als Angreifer und das Blue Team als Verteidiger zusammen, um die Security zu stärken. Purple Llama überträgt das Konzept für generative KI, indem die Teams Risiken und Angriffsflächen evaluieren (rot) und sie abwehren beziehungsweise ihnen entgegenwirken (blau).

Mit CyberSecEval hat Meta einen ersten Benchmark zum Bewerten von Risiken für Large Language Models veröffentlicht. Dabei liegt der Fokus vor allem auf zwei Bereichen: der Tendenz des Modells, bei Softwareentwicklungsaufgaben unsicheren Code zu generieren, und dem Verhalten der LLMs, wenn sie dazu aufgefordert werden, bei Cyberangriffen zu helfen. Meta will unter dem Dachprojekt Tools veröffentlichen, die dafür sorgen, dass die Modelle weniger Schwachstellen in Codevorschlägen einbringen und die Unterstützung für Cyberattacken verweigern.

Angepasstes Llama für sicherere Unterhaltungen

Das speziell angepasste Modell Llama Guard ist auf die Bewertung von Sicherheitsrisiken beim Chat zwischen Mensch und KI ausgerichtet. Es klassifiziert sowohl die Prompts als auch die Antworten des Modells. Llama Guard ist ein speziell angepasstes Llama2-7b-Modell – 7b steht für 7 Milliarden (Billion) Parameter, also die kleinste Variante des LLM, das es auch mit 13 Milliarden und 70 Milliarden Parametern gibt.

Im Entwicklungszyklus für verantwortungsvolle LLMs sieht Meta Purple Llama derzeit beim Evaluieren der Sicherheit und bei Schutzmaßnahmen für die Risiken bei den Prompts und den Antworten des Modells.

(Bild: Meta)

Offene Mitarbeit

Purple Llama ist als offenes Ökosystem ausgelegt. In der Ankündigung zählt Meta zahlreiche Partner für mehr Sicherheit und Vertrauenswürdigkeit von KI-Systemen auf, darunter AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Microsoft, Nvidia und die frisch von Meta und IBM gegründete AI Alliance.

Auf X (vormals Twitter) betont Nick Clegg, der vor seiner Rolle als Leiter der Unternehmenskommunikation bei Meta stellvertretender Premierminister des Vereinigten Königsreichs war, dass der offene Ansatz wichtig für die Sicherheit der Modelle sei.

Weitere Details lassen sich dem Meta-Blog entnehmen. Die Pläne für sichere und vertrauenswürdige generative KI könnten zumindest indirekt mit den Umstrukturierungen von Ende November zusammenhängen, bei denen Meta seine KI-Teams umorganisiert und den Schwerpunkt von verantwortungsvoller auf generative KI umgeschichtet hat.

(rme)

nach oben

Alle Angebote

Newsletter heise-Bot

${intro} ${title}