Inhalt
summary Zusammenfassung

Forscher der EPFL haben eine einfache Methode entdeckt, um die Schutzmechanismen führender KI-Sprachmodelle auszuhebeln: Werden schädliche Anfragen in die Vergangenheitsform umformuliert, geben viele Modelle detaillierte Antworten, die sie normalerweise verweigern würden.

Anzeige

Große Sprachmodelle (LLMs) wie ChatGPT oder GPT-4 sind darauf trainiert, auf potenziell schädliche Anfragen ablehnend zu reagieren.

Maksym Andriushchenko und Nicolas Flammarion von der École polytechnique fédérale de Lausanne (EPFL) zeigen in ihrer Studie "Does Refusal Training in LLMs Generalize to the Past Tense?" jedoch, dass sich diese Schutzmechanismen durch eine simple Umformulierung der Frage in die Vergangenheitsform oft umgehen lassen.

Fragt man ChatGPT mit GPT-4o beispielsweise danach, wie man einen Molotow-Cocktail herstellt, lehnt das Modell die Anfrage ab. Formuliert man die Frage jedoch um und erkundigt sich, wie Menschen das früher gemacht haben, erhält man eine detaillierte Schritt-für-Schritt-Anleitung. Auch in meinem Test ließ sich dieses Phänomen nachstellen.

Anzeige
Anzeige
Bild: Andriushchenko, Flammarion

Die Forscher evaluierten diese Methode systematisch an sechs State-of-the-Art-Sprachmodellen, darunter Llama-3 8B, GPT-3.5 Turbo und GPT-4o. Sie nutzten GPT-3.5 Turbo als Reformulierungsmodell, um schädliche Anfragen aus dem JailbreakBench-Datensatz automatisch in die Vergangenheitsform umzuwandeln.

Während bei GPT-4o nur 1 Prozent der direkten schädlichen Anfragen erfolgreich waren, stieg die Erfolgsrate bei 20 Reformulierungsversuchen in der Vergangenheitsform auf 88 Prozent. Bei kritischen Themen wie Hacking und Betrug erreichte die Methode sogar Erfolgsraten von 100 Prozent.

Bild: Andriushchenko, Flammarion

Interessanterweise stellten die Forscher fest, dass Umformulierungen in die Zukunftsform weniger effektiv waren. Das legt nahe, dass die Schutzmaßnahmen dazu tendieren, Fragen zur Vergangenheit als harmloser einzustufen als hypothetische Fragen zur Zukunft.

Die Ergebnisse zeigen laut der beiden Forscher, dass die derzeit weitverbreiteten Ausrichtungstechniken wie SFT, RLHF und adversariales Training, die zur Sicherheitsoptimierung der untersuchten Modelle eingesetzt werden, brüchig sein können und nicht immer wie beabsichtigt generalisieren.

"Wir sind der Meinung, dass die Generalisierungsmechanismen, die den derzeitigen Alignment-Methoden zugrunde liegen, noch nicht ausreichend erforscht sind", schreiben Andriushchenko und Flammarion.

Empfehlung
Die Vergangenheitsform reicht aus, um bei kritischen Themen wie Hacking und Betrug 100-prozentige Erfolgsquoten bei der Antwortgenerierung zu erzielen. | Bild: Andriushchenko, Flammarion

Die Studie unterstreicht einmal mehr die Unvorhersehbarkeit der LLM-Technologie, was ihren Einsatz gerade für kritische Aufgaben und Infrastrukturen fragwürdig macht. Die neu entdeckte Schwachstelle könnte bestehende Sicherheitsstrukturen gefährden und die Tatsache, dass sie so offensichtlich und leicht ausnutzbar ist und dennoch bisher unentdeckt blieb, ist bedenklich.

In ihrer Studie zeigten die Forscher auch einen Weg auf, das Problem zu lösen: Ein GPT-3.5, das mit in der Vergangenheitsform formulierten kritischen Anfragen und entsprechenden Ablehnungen feinjustiert wurde, konnte die kritischen Anfragen zuverlässig erkennen und ablehnen.

Je nach Zusammensetzung der Optimierungsdaten erreicht das angepasste Modell eine hohe Sicherheit. Allerdings nehmen auch die unbegründeten Ablehnungen (Overrefusals) zu. | Bild: Andriushchenko, Flammarion

Der Quellcode und die Jailbreak-Artefakte der Studie sind auf GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der EPFL entdeckten eine einfache Methode, um die Schutzmechanismen führender KI-Sprachmodelle auszuhebeln: Werden potenziell schädliche Anfragen in die Vergangenheitsform umformuliert, geben viele Modelle detaillierte Antworten, die sie normalerweise verweigern würden.
  • Die Forscher evaluierten diese Methode systematisch an sechs State-of-the-Art-Sprachmodellen. Während bei GPT-4o nur 1 Prozent der schädlichen Anfragen im Präsenz erfolgreich waren, stieg die Erfolgsrate bei 20 Reformulierungsversuchen in der Vergangenheitsform auf 88 Prozent. Bei Themen wie Hacking und Betrug erreichte die Methode sogar Erfolgsraten von 100 Prozent.
  • Die Ergebnisse zeigen laut der Forscher, dass die derzeit weitverbreiteten Ausrichtungstechniken zur Sicherheitsoptimierung der untersuchten Modelle brüchig sein können. Die Studie unterstreicht die Unvorhersehbarkeit der LLM-Technologie, was ihren Einsatz gerade für kritische Aufgaben und Infrastrukturen fragwürdig macht.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!