Forscher des CISPA Helmholtz Center for Information Security zeigen, dass der Sprachmodus von OpenAIs ChatGPT anfällig für sogenannte Jailbreak-Angriffe ist. Durch bestimmte Erzähltechniken kann das System dazu gebracht werden, Fragen zu beantworten, die eigentlich verboten sind.
Wissenschaftler des CISPA Helmholtz Center for Information Security haben in einer neuen Studie gezeigt, dass der Sprachmodus von OpenAIs ChatGPT anfällig für "Jailbreak"-Angriffe ist. Bei diesen Angriffen wird versucht, die Sicherheitsvorkehrungen des Modells zu umgehen, um unerlaubte Inhalte zu generieren.
Die Forscher untersuchten zunächst, wie GPT-4o auf direkte Fragen zu sechs verbotenen Themen reagiert: illegale Aktivitäten, Hassrede, körperliche Schäden, Betrug, Pornografie und Verletzung der Privatsphäre. GPT-4o zeigte eine gute Widerstandsfähigkeit und antwortete in den meisten Fällen nicht auf diese Fragen. Auch die Verwendung von klassischen Jailbreak-Prompts in Textform, die in Audiodateien umgewandelt wurden, führte nur zu einer geringen Erfolgsrate.
VoiceJailbreak: GPT-Hack per Spracheingabe
Inspiriert durch das menschenähnliche Sprachverhalten von GPT-4o entwickelten die Forscher jedoch einen neuen Ansatz namens "VoiceJailbreak". Dabei wird GPT-4o vermenschlicht und durch fiktives Storytelling zu unautorisierten Antworten überredet.
VoiceJailbreak nutzt die drei Schlüsselelemente Setting, Charakter und Story, um eine verbotene Frage in eine einfache, hörbare und effektive Jailbreak-Eingabe zu verwandeln. Die Forscher setzten beispielsweise GPT-4o in die Rolle eines Hackers in einem Spiel (Setting und Charakter). In diesem Kontext stellten sie dann die verbotenen Fragen (Handlung).
Diese Einbettung in eine fiktive Geschichte erhöhte die Wahrscheinlichkeit, dass GPT-4o die gewünschten Informationen lieferte, signifikant. Durch VoiceJailbreak stieg die durchschnittliche Erfolgsrate der Angriffe von 3,3 Prozent auf 77,8 Prozent. Bei einigen Themen, wie Betrug, lag die Erfolgsquote sogar bei mehr als 90 Prozent.
Durch fortgeschrittene Erzähltechniken wie Perspektivwechsel, Foreshadowing oder die Verwendung von "Red Herrings" ließ sich die Erfolgsrate teilweise noch weiter steigern. So führte etwa das Einbinden von BDSM-bezogenen Fragen als Foreshadowing dazu, dass GPT-4o später bereitwilliger auf pornografische Fragen einging. Die Erfolgsrate in diesem Szenario stieg dadurch von 40 Prozent auf 60 Prozent.
Die Forscher führten auch Experimente mit einer unterschiedlichen Anzahl von Interaktionsschritten, Schlüsselelementen und Sprachen durch und stellten unter anderem fest, dass VoiceJailbreak auch in Chinesisch effektiv funktioniert.
Die Ergebnisse unterstreichen, so die Forscher, dass die Sicherheitsvorkehrungen von GPT-4o im Sprachmodus wahrscheinlich bisher nicht ausreichen, um kreative Angriffsvektoren abzuwehren.
Die Anfälligkeit für kreative Angriffe ist ein generelles und gut dokumentiertes Problem bei Sprachmodellen. Multimodalität schafft zusätzliche Angriffsmöglichkeiten, wie bereits bei GPT-4-Vision gezeigt wurde.
Die Studie hat Einschränkungen, die in Zukunft noch stärkere Angriffe erwarten lassen: Die Experimente wurden manuell durchgeführt, da der Sprachmodus bisher nur in der ChatGPT-App verfügbar ist. Zudem konzentriert sie sich auf hörbare Angriffe und lässt unhörbare Varianten außer Acht.
Das neue GPT-4o-Voice kommt erst noch
Die Forschenden testeten die aktuelle ChatGPT-Sprachausgabe in der App. ChatGPT selbst läuft seit Mitte Mai mit GPT-4o, aber die neuen multimodalen Audio-Fähigkeiten sollen erst später eingeführt werden, da sie noch auf Sicherheit getestet werden.
Die aktuelle Version von ChatGPT Voice ist daher bisher unverändert und es ist nicht bekannt, ob OpenAI hier bereits GPT-4o per Texteingabe oder noch andere Modelle verwendet.
Es ist also unwahrscheinlich, dass die Forschenden hier tatsächlich die neue Sprachfähigkeit von GPT-4o getestet haben, sondern nur das bisherige ChatGPT Voice, eventuell unterstützt durch GPT-4o. Die Forschenden führen die Sicherheitsprobleme auf GPT-4o zurück. Auf jeden Fall haben sie den aktuellen Stand von ChatGPT Voice aus Sicht der Nutzer untersucht.