KI-Sicherheit: Ein einfacher Trick macht Metas Llama 3 bissig

Midjourney prompted by THE DECODER

Das kürzlich von Meta veröffentlichte Open-Source-Modell Llama 3 kann trotz umfangreicher Sicherheitsmaßnahmen durch einen einfachen Jailbreak dazu gebracht werden, schädliche Inhalte zu erzeugen.

Meta hat nach eigenen Angaben erhebliche Anstrengungen unternommen, um Llama 3 abzusichern, darunter umfangreiche Tests für unerwartete Anwendungen und Techniken zur Behebung von Schwachstellen in frühen Versionen des Modells, wie die Feinabstimmung von Beispielen für sichere und nützliche Antworten auf riskante Prompts. Llama 3 schneidet in den gängigen Standard-Sicherheitsbenchmarks gut ab.

Dass das nicht viel bedeuten muss, zeigt ein jetzt vorgestellter, denkbar einfacher Jailbreak: Es genügt, das Modell einfach mit einem bösartigen sogenannten Präfix zu "primen", also vorzubereiten. Das Präfix bezieht sich auf einen kurzen Textabschnitt, der per Code-Eingriff vor der Hauptaufforderung an das KI-Modell eingefügt wird und die Antwort des Modells beeinflusst.

Das Standardverhalten von Llama 3 bei einer kritischen Anfrage: Sie wird abgelehnt. | Bild: Haize Labs

Normalerweise würde Llama 3 dank des Sicherheitstrainings von Meta bei einem bösartigen Prompt die Generierung verweigern. Gibt man Llama 3 jedoch den Anfang einer bösartigen Antwort vor, setzt das Modell die Konversation zum Thema häufig fort.

Ein eingefügter Textabschnitt vor der eigentlichen Antwort verleitet Llama 3 zu unsicheren Antworten. | Bild: Haize Labs

Die Erklärung der Jailbreaker: Llama 3 ist so gut im Helfen, dass die gelernten Schutzmaßnahmen in diesem Szenario nicht greifen.

Verständnislose LLMs bieten viel Angriffsfläche

Diese bösartigen Präfixe müssen nicht einmal manuell erstellt werden. Stattdessen kann ein "naives"", auf Hilfsbereitschaft optimiertes LLM wie Mistral Instruct verwendet werden, um eine bösartige Antwort zu generieren und diese dann als Präfix an Llama 3 zu übergeben.

Die Länge des Präfixes kann beeinflussen, ob Llama 3 tatsächlich einen schädlichen Text generiert. Ist das Präfix zu kurz, kann Llama 3 die bösartige Generierung ablehnen. Ist das Präfix zu lang, antwortet Llama 3 nur mit einem Hinweis auf zu viel Text, gefolgt von einer Ablehnung. Längere Präfixe sind erfolgreicher, um Llama zu täuschen.

ASR steht für "Attack Success Rate". | Bild: Haize Labs

Daraus leiten die Jailbreaker ein grundsätzliches Problem ab, das die KI-Sicherheit insgesamt betrifft: Sprachmodelle würden trotz all ihrer Fähigkeiten und des Hypes um sie wahrscheinlich nicht verstehen, was sie sagen. Dem Modell fehle die Fähigkeit zur Selbstreflexion, zur Analyse dessen, was es sagt, während es spricht. Das "scheine ein ziemlich großes Problem zu sein", so die Jailbreaker.

Empfehlung

KI in der Praxis

Alle Apple-Intelligence-Updates von der WWDC 25 auf einen Blick

Immer wieder gelingt es, die Sicherheitsmaßnahmen von KI-Modellen mit relativ einfachen Mitteln zu umgehen. Das gilt für geschlossene, proprietäre Modelle ebenso wie für Open-Source-Modelle. Bei Open-Source-Modellen sind die Möglichkeiten noch größer, da der Code verfügbar ist.

Manche kritisieren daher, dass Open-Source-Modelle deshalb unsicherer seien als geschlossene Modelle. Ein Gegenargument, das auch von Meta verwendet wird, ist, dass die Community solche Sicherheitslücken schnell finden und schließen kann.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI-Sicherheit: Ein einfacher Trick macht Metas Llama 3 bissig

Verständnislose LLMs bieten viel Angriffsfläche

Alle Apple-Intelligence-Updates von der WWDC 25 auf einen Blick

Anthropic: 250 manipulierte Dokumente reichen für Hintertür in Sprachmodellen

Anthropic veröffentlicht Open-Source-Tool Petri zur automatisierten KI-Sicherheitsprüfung

Kalifornien verabschiedet erstes KI-Sicherheitsgesetz der USA

OpenAI entdeckt nach Sora-App-Launch plötzlich das Urheberrecht

OpenAI launcht neues Videomodell Sora 2 mit Sound und Social-App

Laut Google Deepmind können Videomodelle wie Veo 3 Generalisten für visuelle Aufgaben werden

KI-Sicherheit: Ein einfacher Trick macht Metas Llama 3 bissig

Verständnislose LLMs bieten viel Angriffsfläche

Artikel teilen

Bankverbindung