Forscher entdeckten eine absurde Sicherheitslücke in KI-Sprachmodellen

Midjourney prompted by THE DECODER

Forscher der EPFL haben eine einfache Methode entdeckt, um die Schutzmechanismen führender KI-Sprachmodelle auszuhebeln: Werden schädliche Anfragen in die Vergangenheitsform umformuliert, geben viele Modelle detaillierte Antworten, die sie normalerweise verweigern würden.

Große Sprachmodelle (LLMs) wie ChatGPT oder GPT-4 sind darauf trainiert, auf potenziell schädliche Anfragen ablehnend zu reagieren.

Maksym Andriushchenko und Nicolas Flammarion von der École polytechnique fédérale de Lausanne (EPFL) zeigen in ihrer Studie "Does Refusal Training in LLMs Generalize to the Past Tense?" jedoch, dass sich diese Schutzmechanismen durch eine simple Umformulierung der Frage in die Vergangenheitsform oft umgehen lassen.

Fragt man ChatGPT mit GPT-4o beispielsweise danach, wie man einen Molotow-Cocktail herstellt, lehnt das Modell die Anfrage ab. Formuliert man die Frage jedoch um und erkundigt sich, wie Menschen das früher gemacht haben, erhält man eine detaillierte Schritt-für-Schritt-Anleitung. Auch in meinem Test ließ sich dieses Phänomen nachstellen.

Die Forscher evaluierten diese Methode systematisch an sechs State-of-the-Art-Sprachmodellen, darunter Llama-3 8B, GPT-3.5 Turbo und GPT-4o. Sie nutzten GPT-3.5 Turbo als Reformulierungsmodell, um schädliche Anfragen aus dem JailbreakBench-Datensatz automatisch in die Vergangenheitsform umzuwandeln.

Während bei GPT-4o nur 1 Prozent der direkten schädlichen Anfragen erfolgreich waren, stieg die Erfolgsrate bei 20 Reformulierungsversuchen in der Vergangenheitsform auf 88 Prozent. Bei kritischen Themen wie Hacking und Betrug erreichte die Methode sogar Erfolgsraten von 100 Prozent.

Interessanterweise stellten die Forscher fest, dass Umformulierungen in die Zukunftsform weniger effektiv waren. Das legt nahe, dass die Schutzmaßnahmen dazu tendieren, Fragen zur Vergangenheit als harmloser einzustufen als hypothetische Fragen zur Zukunft.

Die Ergebnisse zeigen laut der beiden Forscher, dass die derzeit weitverbreiteten Ausrichtungstechniken wie SFT, RLHF und adversariales Training, die zur Sicherheitsoptimierung der untersuchten Modelle eingesetzt werden, brüchig sein können und nicht immer wie beabsichtigt generalisieren.

"Wir sind der Meinung, dass die Generalisierungsmechanismen, die den derzeitigen Alignment-Methoden zugrunde liegen, noch nicht ausreichend erforscht sind", schreiben Andriushchenko und Flammarion.

Empfehlung

KI-Forschung

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

Die Vergangenheitsform reicht aus, um bei kritischen Themen wie Hacking und Betrug 100-prozentige Erfolgsquoten bei der Antwortgenerierung zu erzielen. | Bild: Andriushchenko, Flammarion

Die Studie unterstreicht einmal mehr die Unvorhersehbarkeit der LLM-Technologie, was ihren Einsatz gerade für kritische Aufgaben und Infrastrukturen fragwürdig macht. Die neu entdeckte Schwachstelle könnte bestehende Sicherheitsstrukturen gefährden und die Tatsache, dass sie so offensichtlich und leicht ausnutzbar ist und dennoch bisher unentdeckt blieb, ist bedenklich.

In ihrer Studie zeigten die Forscher auch einen Weg auf, das Problem zu lösen: Ein GPT-3.5, das mit in der Vergangenheitsform formulierten kritischen Anfragen und entsprechenden Ablehnungen feinjustiert wurde, konnte die kritischen Anfragen zuverlässig erkennen und ablehnen.

Je nach Zusammensetzung der Optimierungsdaten erreicht das angepasste Modell eine hohe Sicherheit. Allerdings nehmen auch die unbegründeten Ablehnungen (Overrefusals) zu. | Bild: Andriushchenko, Flammarion

Der Quellcode und die Jailbreak-Artefakte der Studie sind auf GitHub verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Forscher entdeckten eine absurde Sicherheitslücke in KI-Sprachmodellen

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

Google Gemini lässt sich mit versteckten Prompts in Kalendereinträgen hacken und fernsteuern

Regierungsstudie deckt KI-Sicherheitsmängel auf - und verschwindet in der Schublade

Zero-Click-Angriff auf ChatGPT: Ein manipuliertes Dokument reichte für Datenklau

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Forscher entdeckten eine absurde Sicherheitslücke in KI-Sprachmodellen

Artikel teilen

Bankverbindung