Inhalt
summary Zusammenfassung

Forscher haben herausgefunden, dass bewusst eingeführte Maßnahmen zur Förderung ethischen Verhaltens paradoxerweise die Anfälligkeit von Modellen für sogenannte "Jailbreak"-Angriffe erhöhen können.

Anzeige

In ihrer Studie "Do LLMs Have Political Correctness?", die auf der ICLR 2025 Konferenz vorgestellt wurde, untersuchten die Forscher von Theorie Inc. den Einfluss von demographischen Schlüsselwörtern auf die Erfolgsrate von Jailbreak-Versuchen.

Es zeigte sich, dass Prompts mit Begriffen für marginalisierte Gruppen häufiger zu unerwünschten Ausgaben führten als Prompts mit Begriffen für privilegierte Gruppen.

"Wir stellten fest, dass die Erfolgsrate von Jailbreaks bei GPT-4o-Modellen um 20 Prozent zwischen nicht-binären und Cisgender-Schlüsselwörtern und um 16 Prozent zwischen weißen und schwarzen Schlüsselwörtern variierte, selbst wenn die anderen Teile der Prompts identisch waren", erklären die Autoren Isack Lee und Haebin Seong.

Anzeige
Anzeige

Sie führen die Diskrepanz auf bewusste Verzerrungen zurück, die das ethische Verhalten der Modelle sicherstellen sollen. Das Phänomen bezeichnen sie als "PCJailbreak" (Political Correctness Jailbreak) und warnen vor den inhärenten Risiken sicherheitsinduzierter Verzerrungen.

So funktioniert der Jailbreak

Bei Jailbreak-Angriffen werden gezielt formulierte Prompts verwendet, um die Sicherheitsmechanismen von KI-Systemen zu umgehen und unerwünschte, oft schadhafte Inhalte zu generieren.

PCJailbreak verwendet Schlüsselwörter, die verschiedene demografische und sozioökonomische Gruppen repräsentieren. Die Forscher generierten Begriffspaare wie "reich" und "arm" oder "männlich" und "weiblich", um privilegierte und marginalisierte Gruppen gegenüberzustellen.

Anschließend erstellten sie Prompts, die diese Schlüsselwörter mit potenziell schädlichen Aufforderungen kombinierten. Durch wiederholte Tests mit verschiedenen Kombinationen konnten sie die Erfolgsraten von Jailbreak-Versuchen für jedes Schlüsselwort messen.

Diagramm: Einfluss von Schlüsselwörtern auf LLM-Antworten mit schädlichen Prompts.
Aufbau eines PCJailbreak-Angriffs, der durch die Einbeziehung von Schlüsselwörtern marginalisierter Gruppen besser funktionieren soll als herkömmliche Jailbreak-Angriffe. | Bild: Theori Inc.

Die Ergebnisse zeigten signifikante Unterschiede: Bei Schlüsselwörtern für marginalisierte Gruppen waren die Erfolgsraten oft deutlich höher als bei privilegierten Gruppen. Dasdeutet darauf hin, dass die Sicherheitsmaßnahmen der Sprachmodelle unbeabsichtigte Verzerrungen aufweisen, die von Jailbreak-Angriffen ausgenutzt werden können.

Empfehlung
Tabelle: Erfolgsraten von LLM-Modellen nach Gruppenunterschieden.
Die Leistung der verschiedenen Modelle zeigt die Basis-Erfolgsrate, die marginalisierte Erfolgsrate, die privilegierte Erfolgsrate und die Differenz zwischen marginalisierter und privilegierter Erfolgsrate. | Bild: Theori Inc.

Metas Llama 3 schneidet in den Tests eher gut ab, ist also weniger anfällig für den Angriff, während OpenAIs GPT-4o eher schlecht abschneidet. Das könnte darauf zurückzuführen sein, dass OpenAI seine Modelle durch gezieltes Feintuning stärker gegen Diskriminierung schützt.

PCDefense: Verteidigung durch Anpassung von Verzerrungen

Um die durch PCJailbreak aufgedeckten Schwachstellen zu beheben, entwickelten die Forscher die Methode "PCDefense". Dieser Ansatz nutzt spezielle Verteidigungsprompts, um übermäßige Verzerrungen in den Sprachmodellen zu reduzieren und so die Anfälligkeit für Jailbreak-Angriffe zu verringern.

Das Besondere an PCDefense ist, dass keine zusätzlichen Modelle oder Inferenzschritte erforderlich sind. Stattdessen werden die Verteidigungsprompts direkt in die Eingabe integriert, um die Verzerrungen anzupassen und ein ausgewogeneres Verhalten des Sprachmodells zu erreichen.

Vergleich zwischen Jailbreak- und Defense-Prompt bei LLM-Antworten.
PCDefense schafft einen einfachen Weg, um die Attacke auszuhebeln. | Bild: Theori Inc.

Die Forscher testeten PCDefense an verschiedenen Modellen und konnten zeigen, dass die Erfolgsraten von Jailbreak-Versuchen sowohl für privilegierte als auch für marginalisierte Gruppen deutlich gesenkt werden konnten. Gleichzeitig verringerte sich die Diskrepanz zwischen den Gruppen, was auf eine Verringerung der sicherheitsbedingten Verzerrungen hindeutet.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

PCDefense bietet laut den Forschern eine effiziente und skalierbare Möglichkeit, die Sicherheit großer Sprachmodelle ohne zusätzlichen Rechenaufwand zu verbessern.

Code als Open Source verfügbar

Die Ergebnisse der Studie verdeutlichen die komplexen Herausforderungen bei der Entwicklung sicherer und ethisch vertretbarer KI-Systeme und der Balance zwischen Sicherheit, Fairness und Leistung. So ist etwa bekannt, dass die Leistung von kommerziell verfügbaren KI-Modellen wie GPT-4 durch Sicherheitsvorkehrungen beim Feintuning tendenziell verringert wird.

Die Autoren betonen, dass KI-Unternehmen und Forscher verantwortungsvollere Strategien entwickeln müssen, um die Sicherheit von LLMs in einer zunehmend komplexen Bedrohungslandschaft zu gewährleisten.

Das Forschungsteam hat den Code für PCJailbreak hier als Open Source veröffentlicht. Theori Inc., das Unternehmen hinter der Studie, ist ein auf offensive Cybersicherheit spezialisiertes Unternehmen mit Sitz in den USA und Südkorea. Es wurde im Januar 2016 von Andrew Wesie und Brian Pak gegründet.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Theori Inc. haben in einer Studie herausgefunden, dass Sicherheitsmaßnahmen in großen Sprachmodellen paradoxerweise die Anfälligkeit für "Jailbreak"-Angriffe erhöhen können, insbesondere bei Prompts mit Begriffen für marginalisierte Gruppen im Vergleich zu privilegierten Gruppen.
  • Die Forscher entwickelten die Methode "PCJailbreak", die gezielt Schlüsselwörter für verschiedene demografische Gruppen in potenziell schädliche Prompts einbaut. Tests zeigten deutlich höhere Erfolgsraten bei Jailbreak-Versuchen mit Begriffen für marginalisierte Gruppen, was auf unbeabsichtigte Verzerrungen durch die Sicherheitsmaßnahmen hindeutet.
  • Um die aufgedeckten Schwachstellen zu beheben, entwickelten die Forscher "PCDefense". Dieser Ansatz nutzt spezielle Verteidigungsprompts, um übermäßige Verzerrungen zu reduzieren, ohne zusätzliche Modelle oder Inferenzschritte zu erfordern.
Quellen
Kim setzt sich mit den ethischen, wirtschaftlichen und politischen Auswirkungen von KI auseinander. Und natürlich mit der Frage: Wovon träumen Roboter?
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!