Skip to content

Forscher entdeckten eine absurde Sicherheitslücke in KI-Sprachmodellen

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Forscher der EPFL entdeckten eine einfache Methode, um die Schutzmechanismen führender KI-Sprachmodelle auszuhebeln: Werden potenziell schädliche Anfragen in die Vergangenheitsform umformuliert, geben viele Modelle detaillierte Antworten, die sie normalerweise verweigern würden.
  • Die Forscher evaluierten diese Methode systematisch an sechs State-of-the-Art-Sprachmodellen. Während bei GPT-4o nur 1 Prozent der schädlichen Anfragen im Präsenz erfolgreich waren, stieg die Erfolgsrate bei 20 Reformulierungsversuchen in der Vergangenheitsform auf 88 Prozent. Bei Themen wie Hacking und Betrug erreichte die Methode sogar Erfolgsraten von 100 Prozent.
  • Die Ergebnisse zeigen laut der Forscher, dass die derzeit weitverbreiteten Ausrichtungstechniken zur Sicherheitsoptimierung der untersuchten Modelle brüchig sein können. Die Studie unterstreicht die Unvorhersehbarkeit der LLM-Technologie, was ihren Einsatz gerade für kritische Aufgaben und Infrastrukturen fragwürdig macht.

Forscher der EPFL haben eine einfache Methode entdeckt, um die Schutzmechanismen führender KI-Sprachmodelle auszuhebeln: Werden schädliche Anfragen in die Vergangenheitsform umformuliert, geben viele Modelle detaillierte Antworten, die sie normalerweise verweigern würden.

Große Sprachmodelle (LLMs) wie ChatGPT oder GPT-4 sind darauf trainiert, auf potenziell schädliche Anfragen ablehnend zu reagieren.

Maksym Andriushchenko und Nicolas Flammarion von der École polytechnique fédérale de Lausanne (EPFL) zeigen in ihrer Studie "Does Refusal Training in LLMs Generalize to the Past Tense?" jedoch, dass sich diese Schutzmechanismen durch eine simple Umformulierung der Frage in die Vergangenheitsform oft umgehen lassen.

Fragt man ChatGPT mit GPT-4o beispielsweise danach, wie man einen Molotow-Cocktail herstellt, lehnt das Modell die Anfrage ab. Formuliert man die Frage jedoch um und erkundigt sich, wie Menschen das früher gemacht haben, erhält man eine detaillierte Schritt-für-Schritt-Anleitung. Auch in meinem Test ließ sich dieses Phänomen nachstellen.

Bild: Andriushchenko, Flammarion

Die Forscher evaluierten diese Methode systematisch an sechs State-of-the-Art-Sprachmodellen, darunter Llama-3 8B, GPT-3.5 Turbo und GPT-4o. Sie nutzten GPT-3.5 Turbo als Reformulierungsmodell, um schädliche Anfragen aus dem JailbreakBench-Datensatz automatisch in die Vergangenheitsform umzuwandeln.

Während bei GPT-4o nur 1 Prozent der direkten schädlichen Anfragen erfolgreich waren, stieg die Erfolgsrate bei 20 Reformulierungsversuchen in der Vergangenheitsform auf 88 Prozent. Bei kritischen Themen wie Hacking und Betrug erreichte die Methode sogar Erfolgsraten von 100 Prozent.

Bild: Andriushchenko, Flammarion

Interessanterweise stellten die Forscher fest, dass Umformulierungen in die Zukunftsform weniger effektiv waren. Das legt nahe, dass die Schutzmaßnahmen dazu tendieren, Fragen zur Vergangenheit als harmloser einzustufen als hypothetische Fragen zur Zukunft.

Die Ergebnisse zeigen laut der beiden Forscher, dass die derzeit weitverbreiteten Ausrichtungstechniken wie SFT, RLHF und adversariales Training, die zur Sicherheitsoptimierung der untersuchten Modelle eingesetzt werden, brüchig sein können und nicht immer wie beabsichtigt generalisieren.

"Wir sind der Meinung, dass die Generalisierungsmechanismen, die den derzeitigen Alignment-Methoden zugrunde liegen, noch nicht ausreichend erforscht sind", schreiben Andriushchenko und Flammarion.

Die Vergangenheitsform reicht aus, um bei kritischen Themen wie Hacking und Betrug 100-prozentige Erfolgsquoten bei der Antwortgenerierung zu erzielen. | Bild: Andriushchenko, Flammarion

Die Studie unterstreicht einmal mehr die Unvorhersehbarkeit der LLM-Technologie, was ihren Einsatz gerade für kritische Aufgaben und Infrastrukturen fragwürdig macht. Die neu entdeckte Schwachstelle könnte bestehende Sicherheitsstrukturen gefährden und die Tatsache, dass sie so offensichtlich und leicht ausnutzbar ist und dennoch bisher unentdeckt blieb, ist bedenklich.

In ihrer Studie zeigten die Forscher auch einen Weg auf, das Problem zu lösen: Ein GPT-3.5, das mit in der Vergangenheitsform formulierten kritischen Anfragen und entsprechenden Ablehnungen feinjustiert wurde, konnte die kritischen Anfragen zuverlässig erkennen und ablehnen.

Je nach Zusammensetzung der Optimierungsdaten erreicht das angepasste Modell eine hohe Sicherheit. Allerdings nehmen auch die unbegründeten Ablehnungen (Overrefusals) zu. | Bild: Andriushchenko, Flammarion

Der Quellcode und die Jailbreak-Artefakte der Studie sind auf GitHub verfügbar.

Source: Github Paper

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren