Inhalt
summary Zusammenfassung

Forschende verschiedener US-Universitäten und Nvidia haben mit AutoDAN-Turbo ein System entwickelt, das selbstständig und kontinuierlich verschiedene Jailbreak-Strategien entdeckt, kombiniert und für Angriffe auf große Sprachmodelle nutzt.

Anzeige

Jailbreaks im Zusammenhang mit Sprachmodellen bezeichnen Prompt-Formulierungen, die die dem Modell auferlegten Regeln aushebelt. OpenAI untersagt ChatGPT etwa, kriminelle Tätigkeiten zu unterstützen.

Formuliert man den Prompt jedoch auf eine bestimmte Art, lassen sich Chatbots trotzdem dazu bringen. Ein Prompt, der viele Beschränkungen auf einmal entfernt und das Sprachmodell in einen Modus versetzt, in dem es keinerlei Richtlinien befolgt, wird auch "DAN" genannt - kurz für "Do Anything Now".

Ein einfaches Beispiel: Die einfache Anweisung, eine chemische Waffe zu mischen, wird von kommerziellen Sprachmodellen in der Regel kategorisch abgelehnt. Wenn es aber darum geht, diese Szene für ein Drehbuch zu schreiben, oder wenn bereits viele Beispiele für richtige Antworten in der Anfrage enthalten sind, sind sie eher bereit, solche Fragen zu beantworten.

Anzeige
Anzeige

Mischung menschlicher und automatischer Strategien

AutoDAN-Turbo kann während der Erforschung neue Strategien eigenständig entwickeln und diese in einer organisierten Struktur systematisch speichern. So können einmal entdeckte Strategien wiederverwendet und auf deren Basis weiterentwickelt werden, um potenziell neue Ansätze für weitere Angriffe zu schaffen.

Wissenschaftliche Grafik, die den Erfolg von AutoDAN-Turbo im Vergleich zu anderen Methoden zeigt sowie demonstriert, wie das System aus einer Strategie einen vollständigen Prompt gestaltet.
Aus einer Jailbreak-Strategie entwickelt AutoDAN-Turbo einen umfangreichen Prompt. | Bild: Liu et al.

Das Framework ist auch mit bestehenden, von Menschen entworfenen Jailbreak-Strategien kompatibel. Diese können einfach in die Strategiebibliothek von AutoDAN-Turbo integriert werden.

Die Methode funktioniert als Black-Box-Verfahren, das nur auf die Textausgabe des Modells zugreift. Umfangreiche Experimente auf öffentlichen Benchmarks und Datensätzen zeigen, dass AutoDAN-Turbo hohe Erfolgsquoten bei Angriffen auf Open-Source- und proprietäre LLMs erzielt.

Wissenschaftliche Grafik, die das Jailbreak Strategy Retrieval von AutoDAN-Turbo visualisiert.
Eine einfache Anfrage wie die Entwicklung eines Computervirus löst eine Kette von Aktionen in AutoDAN-Turbo aus. | Bild: Liu et al.

Neuer Spitzenreiter in Benchmarks

AutoDAN-Turbo stellt im Vergleich zu anderen Methoden im Harmbench-Datensatz den neuen Spitzenreiter dar. Mit größeren Modellen wie Llama-3-70B arbeitet der Jailbreaker tendenziell besser, große Unterschiede zu kleinen und ressourcenschonenden Modellen wie Llama-2-7B sind jedoch nicht zu beobachten.

Vergleichstabelle von AutoDAN-Turbo anhand des Harmbench-Datensatzes. Hier schneidet die neue Methode besser ab als alle anderen.
Mit dem Harmbench-Datensatz schneidet die neue Methode besser ab als alle anderen. | Bild: Liu et al.

Die Methode führt nicht nur häufiger zum Ziel (einer höheren Attack Success Rate, ASR), sondern zeigt auch einen "höheren Grad der Bösartigkeit", wie am StrongREJECT-Score abzulesen ist.

Empfehlung

Die herausragende Leistung unserer Methode im Vergleich zu den Baselines ist auf die autonome Erkundung von Jailbreak-Strategien ohne menschliches Eingreifen oder vordefinierte Bereiche zurückzuführen. Im Gegensatz dazu verwendet Rainbow Teaming nur 8 von Menschen entwickelte Jailbreak-Strategien als Referenz für den Jailbreak. Dieser fest vorgegebene Umfang führt zu einer niedrigeren ASR.

Bemerkenswert ist die Wirksamkeit von AutoDAN-Turbo bei GPT-4-1106-turbo, bei dem es eine Angriffsquote von 88,5 Prozent erreicht. Durch die Integration von sieben von Menschen entworfenen Jailbreak-Strategien aus wissenschaftlichen Arbeiten kann AutoDAN-Turbo sogar eine noch höhere Erfolgsquote von 93,4 Prozent bei GPT-4-1106-turbo erzielen.

AutoDAN-Turbo steht als Python-Skript auf GitHub kostenlos zum Download bereit. Dort findet sich auch eine Anleitung zur Installation und Nutzung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende haben mit AutoDAN-Turbo ein System entwickelt, das verschiedene Jailbreak-Strategien für Angriffe auf große Sprachmodelle selbständig erkennt und kombiniert. Jailbreaks sind dabei Prompt-Formulierungen, die die Regeln des Modells aushebeln.
  • AutoDAN-Turbo ist in der Lage, selbstständig neue Strategien zu entwickeln, zu speichern und mit bestehenden, von Menschen entworfenen Jailbreak-Strategien zu kombinieren. Das Framework arbeitet als Blackbox und greift nur auf die Textausgabe des Modells zu.
  • In Experimenten mit Benchmarks und Datensätzen erzielt AutoDAN-Turbo hohe Erfolgsraten bei Angriffen auf Open-Source- und proprietäre Sprachmodelle. Es schneidet besser ab als andere Methoden und erreicht etwa eine Angriffsrate von 88,5 Prozent auf GPT-4-1106-turbo.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!