Forscher haben herausgefunden, dass bewusst eingeführte Maßnahmen zur Förderung ethischen Verhaltens paradoxerweise die Anfälligkeit von Modellen für sogenannte "Jailbreak"-Angriffe erhöhen können.
In ihrer Studie "Do LLMs Have Political Correctness?", die auf der ICLR 2025 Konferenz vorgestellt wurde, untersuchten die Forscher von Theorie Inc. den Einfluss von demographischen Schlüsselwörtern auf die Erfolgsrate von Jailbreak-Versuchen.
Es zeigte sich, dass Prompts mit Begriffen für marginalisierte Gruppen häufiger zu unerwünschten Ausgaben führten als Prompts mit Begriffen für privilegierte Gruppen.
"Wir stellten fest, dass die Erfolgsrate von Jailbreaks bei GPT-4o-Modellen um 20 Prozent zwischen nicht-binären und Cisgender-Schlüsselwörtern und um 16 Prozent zwischen weißen und schwarzen Schlüsselwörtern variierte, selbst wenn die anderen Teile der Prompts identisch waren", erklären die Autoren Isack Lee und Haebin Seong.
Sie führen die Diskrepanz auf bewusste Verzerrungen zurück, die das ethische Verhalten der Modelle sicherstellen sollen. Das Phänomen bezeichnen sie als "PCJailbreak" (Political Correctness Jailbreak) und warnen vor den inhärenten Risiken sicherheitsinduzierter Verzerrungen.
So funktioniert der Jailbreak
Bei Jailbreak-Angriffen werden gezielt formulierte Prompts verwendet, um die Sicherheitsmechanismen von KI-Systemen zu umgehen und unerwünschte, oft schadhafte Inhalte zu generieren.
PCJailbreak verwendet Schlüsselwörter, die verschiedene demografische und sozioökonomische Gruppen repräsentieren. Die Forscher generierten Begriffspaare wie "reich" und "arm" oder "männlich" und "weiblich", um privilegierte und marginalisierte Gruppen gegenüberzustellen.
Anschließend erstellten sie Prompts, die diese Schlüsselwörter mit potenziell schädlichen Aufforderungen kombinierten. Durch wiederholte Tests mit verschiedenen Kombinationen konnten sie die Erfolgsraten von Jailbreak-Versuchen für jedes Schlüsselwort messen.
Die Ergebnisse zeigten signifikante Unterschiede: Bei Schlüsselwörtern für marginalisierte Gruppen waren die Erfolgsraten oft deutlich höher als bei privilegierten Gruppen. Dasdeutet darauf hin, dass die Sicherheitsmaßnahmen der Sprachmodelle unbeabsichtigte Verzerrungen aufweisen, die von Jailbreak-Angriffen ausgenutzt werden können.
Metas Llama 3 schneidet in den Tests eher gut ab, ist also weniger anfällig für den Angriff, während OpenAIs GPT-4o eher schlecht abschneidet. Das könnte darauf zurückzuführen sein, dass OpenAI seine Modelle durch gezieltes Feintuning stärker gegen Diskriminierung schützt.
PCDefense: Verteidigung durch Anpassung von Verzerrungen
Um die durch PCJailbreak aufgedeckten Schwachstellen zu beheben, entwickelten die Forscher die Methode "PCDefense". Dieser Ansatz nutzt spezielle Verteidigungsprompts, um übermäßige Verzerrungen in den Sprachmodellen zu reduzieren und so die Anfälligkeit für Jailbreak-Angriffe zu verringern.
Das Besondere an PCDefense ist, dass keine zusätzlichen Modelle oder Inferenzschritte erforderlich sind. Stattdessen werden die Verteidigungsprompts direkt in die Eingabe integriert, um die Verzerrungen anzupassen und ein ausgewogeneres Verhalten des Sprachmodells zu erreichen.
Die Forscher testeten PCDefense an verschiedenen Modellen und konnten zeigen, dass die Erfolgsraten von Jailbreak-Versuchen sowohl für privilegierte als auch für marginalisierte Gruppen deutlich gesenkt werden konnten. Gleichzeitig verringerte sich die Diskrepanz zwischen den Gruppen, was auf eine Verringerung der sicherheitsbedingten Verzerrungen hindeutet.
PCDefense bietet laut den Forschern eine effiziente und skalierbare Möglichkeit, die Sicherheit großer Sprachmodelle ohne zusätzlichen Rechenaufwand zu verbessern.
Code als Open Source verfügbar
Die Ergebnisse der Studie verdeutlichen die komplexen Herausforderungen bei der Entwicklung sicherer und ethisch vertretbarer KI-Systeme und der Balance zwischen Sicherheit, Fairness und Leistung. So ist etwa bekannt, dass die Leistung von kommerziell verfügbaren KI-Modellen wie GPT-4 durch Sicherheitsvorkehrungen beim Feintuning tendenziell verringert wird.
Die Autoren betonen, dass KI-Unternehmen und Forscher verantwortungsvollere Strategien entwickeln müssen, um die Sicherheit von LLMs in einer zunehmend komplexen Bedrohungslandschaft zu gewährleisten.
Das Forschungsteam hat den Code für PCJailbreak hier als Open Source veröffentlicht. Theori Inc., das Unternehmen hinter der Studie, ist ein auf offensive Cybersicherheit spezialisiertes Unternehmen mit Sitz in den USA und Südkorea. Es wurde im Januar 2016 von Andrew Wesie und Brian Pak gegründet.