Inhalt
summary Zusammenfassung

Forscher des CISPA Helmholtz Center for Information Security zeigen, dass der Sprachmodus von OpenAIs ChatGPT anfällig für sogenannte Jailbreak-Angriffe ist. Durch bestimmte Erzähltechniken kann das System dazu gebracht werden, Fragen zu beantworten, die eigentlich verboten sind.

Wissenschaftler des CISPA Helmholtz Center for Information Security haben in einer neuen Studie gezeigt, dass der Sprachmodus von OpenAIs ChatGPT anfällig für "Jailbreak"-Angriffe ist. Bei diesen Angriffen wird versucht, die Sicherheitsvorkehrungen des Modells zu umgehen, um unerlaubte Inhalte zu generieren.

Die Forscher untersuchten zunächst, wie GPT-4o auf direkte Fragen zu sechs verbotenen Themen reagiert: illegale Aktivitäten, Hassrede, körperliche Schäden, Betrug, Pornografie und Verletzung der Privatsphäre. GPT-4o zeigte eine gute Widerstandsfähigkeit und antwortete in den meisten Fällen nicht auf diese Fragen. Auch die Verwendung von klassischen Jailbreak-Prompts in Textform, die in Audiodateien umgewandelt wurden, führte nur zu einer geringen Erfolgsrate.

VoiceJailbreak: GPT-Hack per Spracheingabe

Inspiriert durch das menschenähnliche Sprachverhalten von GPT-4o entwickelten die Forscher jedoch einen neuen Ansatz namens "VoiceJailbreak". Dabei wird GPT-4o vermenschlicht und durch fiktives Storytelling zu unautorisierten Antworten überredet.

Anzeige
Anzeige

VoiceJailbreak nutzt die drei Schlüsselelemente Setting, Charakter und Story, um eine verbotene Frage in eine einfache, hörbare und effektive Jailbreak-Eingabe zu verwandeln. Die Forscher setzten beispielsweise GPT-4o in die Rolle eines Hackers in einem Spiel (Setting und Charakter). In diesem Kontext stellten sie dann die verbotenen Fragen (Handlung).

Bild: Shen, Wu, Backes, Zhang

Diese Einbettung in eine fiktive Geschichte erhöhte die Wahrscheinlichkeit, dass GPT-4o die gewünschten Informationen lieferte, signifikant. Durch VoiceJailbreak stieg die durchschnittliche Erfolgsrate der Angriffe von 3,3 Prozent auf 77,8 Prozent. Bei einigen Themen, wie Betrug, lag die Erfolgsquote sogar bei mehr als 90 Prozent.

Bild: Shen, Wu, Backes, Zhang

Durch fortgeschrittene Erzähltechniken wie Perspektivwechsel, Foreshadowing oder die Verwendung von "Red Herrings" ließ sich die Erfolgsrate teilweise noch weiter steigern. So führte etwa das Einbinden von BDSM-bezogenen Fragen als Foreshadowing dazu, dass GPT-4o später bereitwilliger auf pornografische Fragen einging. Die Erfolgsrate in diesem Szenario stieg dadurch von 40 Prozent auf 60 Prozent.

Die Forscher führten auch Experimente mit einer unterschiedlichen Anzahl von Interaktionsschritten, Schlüsselelementen und Sprachen durch und stellten unter anderem fest, dass VoiceJailbreak auch in Chinesisch effektiv funktioniert.

Die Ergebnisse unterstreichen, so die Forscher, dass die Sicherheitsvorkehrungen von GPT-4o im Sprachmodus wahrscheinlich bisher nicht ausreichen, um kreative Angriffsvektoren abzuwehren.

Empfehlung

Die Anfälligkeit für kreative Angriffe ist ein generelles und gut dokumentiertes Problem bei Sprachmodellen. Multimodalität schafft zusätzliche Angriffsmöglichkeiten, wie bereits bei GPT-4-Vision gezeigt wurde.

Die Studie hat Einschränkungen, die in Zukunft noch stärkere Angriffe erwarten lassen: Die Experimente wurden manuell durchgeführt, da der Sprachmodus bisher nur in der ChatGPT-App verfügbar ist. Zudem konzentriert sie sich auf hörbare Angriffe und lässt unhörbare Varianten außer Acht.

Das neue GPT-4o-Voice kommt erst noch

Die Forschenden testeten die aktuelle ChatGPT-Sprachausgabe in der App. ChatGPT selbst läuft seit Mitte Mai mit GPT-4o, aber die neuen multimodalen Audio-Fähigkeiten sollen erst später eingeführt werden, da sie noch auf Sicherheit getestet werden.

Die aktuelle Version von ChatGPT Voice ist daher bisher unverändert und es ist nicht bekannt, ob OpenAI hier bereits GPT-4o per Texteingabe oder noch andere Modelle verwendet.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Es ist also unwahrscheinlich, dass die Forschenden hier tatsächlich die neue Sprachfähigkeit von GPT-4o getestet haben, sondern nur das bisherige ChatGPT Voice, eventuell unterstützt durch GPT-4o. Die Forschenden führen die Sicherheitsprobleme auf GPT-4o zurück. Auf jeden Fall haben sie den aktuellen Stand von ChatGPT Voice aus Sicht der Nutzer untersucht.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher des CISPA Helmholtz Center for Information Security haben gezeigt, dass der Sprachmodus von OpenAIs ChatGPT anfällig für "Jailbreak"-Angriffe ist, bei denen die Sicherheitsvorkehrungen des Modells umgangen werden, um unerlaubte Inhalte zu generieren.
  • Durch einen neuen Ansatz namens "VoiceJailbreak", der GPT-4o durch fiktives Storytelling vermenschlicht und zu unautorisierten Antworten überredet, stieg die durchschnittliche Erfolgsrate der Angriffe von 3,3 Prozent auf 77,8 Prozent.
  • Allerdings ist unklar, ob die Forscher tatsächlich die neue Sprachfunktion von GPT-4o getestet haben oder nur das bisherige ChatGPT Voice. Auf jeden Fall hat die Studie den aktuellen Stand der Anwendung untersucht.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!