Skip to content

KI-Sicherheit: Ein einfacher Trick macht Metas Llama 3 bissig

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Das von Meta veröffentlichte Open-Source-Sprachmodell Llama 3 kann trotz umfangreicher Sicherheitsmaßnahmen durch einen einfachen "Jailbreak" dazu gebracht werden, schädliche Inhalte zu erzeugen. Dazu muss dem Modell nur ein kurzer bösartiger Text vorangestellt werden, auf den es dann in seiner Antwort Bezug nimmt.
  • Die Jailbreaker erklären dies damit, dass Llama 3 zwar leistungsfähig, aber nicht wirklich selbstreflektiert ist. Dem Modell fehle die Fähigkeit zu analysieren, was es sagt, während es spricht. Dies sei ein grundsätzliches Problem für die Sicherheit von KI-Systemen.
  • Solche Sicherheitslücken treten sowohl bei geschlossenen als auch bei Open-Source-Modellen auf. Während Kritiker Open-Source-Modelle für unsicherer halten, argumentieren andere, dass die Community Schwachstellen schneller finden und beheben kann.

Das kürzlich von Meta veröffentlichte Open-Source-Modell Llama 3 kann trotz umfangreicher Sicherheitsmaßnahmen durch einen einfachen Jailbreak dazu gebracht werden, schädliche Inhalte zu erzeugen.

Meta hat nach eigenen Angaben erhebliche Anstrengungen unternommen, um Llama 3 abzusichern, darunter umfangreiche Tests für unerwartete Anwendungen und Techniken zur Behebung von Schwachstellen in frühen Versionen des Modells, wie die Feinabstimmung von Beispielen für sichere und nützliche Antworten auf riskante Prompts. Llama 3 schneidet in den gängigen Standard-Sicherheitsbenchmarks gut ab.

Dass das nicht viel bedeuten muss, zeigt ein jetzt vorgestellter, denkbar einfacher Jailbreak: Es genügt, das Modell einfach mit einem bösartigen sogenannten Präfix zu "primen", also vorzubereiten. Das Präfix bezieht sich auf einen kurzen Textabschnitt, der per Code-Eingriff vor der Hauptaufforderung an das KI-Modell eingefügt wird und die Antwort des Modells beeinflusst.

Das Standardverhalten von Llama 3 bei einer kritischen Anfrage: Sie wird abgelehnt. | Bild: Haize Labs

Normalerweise würde Llama 3 dank des Sicherheitstrainings von Meta bei einem bösartigen Prompt die Generierung verweigern. Gibt man Llama 3 jedoch den Anfang einer bösartigen Antwort vor, setzt das Modell die Konversation zum Thema häufig fort.

Ein eingefügter Textabschnitt vor der eigentlichen Antwort verleitet Llama 3 zu unsicheren Antworten. | Bild: Haize Labs

Die Erklärung der Jailbreaker: Llama 3 ist so gut im Helfen, dass die gelernten Schutzmaßnahmen in diesem Szenario nicht greifen.

Verständnislose LLMs bieten viel Angriffsfläche

 

Diese bösartigen Präfixe müssen nicht einmal manuell erstellt werden. Stattdessen kann ein "naives"", auf Hilfsbereitschaft optimiertes LLM wie Mistral Instruct verwendet werden, um eine bösartige Antwort zu generieren und diese dann als Präfix an Llama 3 zu übergeben.

Die Länge des Präfixes kann beeinflussen, ob Llama 3 tatsächlich einen schädlichen Text generiert. Ist das Präfix zu kurz, kann Llama 3 die bösartige Generierung ablehnen. Ist das Präfix zu lang, antwortet Llama 3 nur mit einem Hinweis auf zu viel Text, gefolgt von einer Ablehnung. Längere Präfixe sind erfolgreicher, um Llama zu täuschen.

ASR steht für "Attack Success Rate". | Bild: Haize Labs

Daraus leiten die Jailbreaker ein grundsätzliches Problem ab, das die KI-Sicherheit insgesamt betrifft: Sprachmodelle würden trotz all ihrer Fähigkeiten und des Hypes um sie wahrscheinlich nicht verstehen, was sie sagen. Dem Modell fehle die Fähigkeit zur Selbstreflexion, zur Analyse dessen, was es sagt, während es spricht. Das "scheine ein ziemlich großes Problem zu sein", so die Jailbreaker.

Immer wieder gelingt es, die Sicherheitsmaßnahmen von KI-Modellen mit relativ einfachen Mitteln zu umgehen. Das gilt für geschlossene, proprietäre Modelle ebenso wie für Open-Source-Modelle. Bei Open-Source-Modellen sind die Möglichkeiten noch größer, da der Code verfügbar ist.

Manche kritisieren daher, dass Open-Source-Modelle deshalb unsicherer seien als geschlossene Modelle. Ein Gegenargument, das auch von Meta verwendet wird, ist, dass die Community solche Sicherheitslücken schnell finden und schließen kann.

Source: Github

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren