Inhalt
summary Zusammenfassung
Update
  • Jailbreak Update 2

Update vom 15. Februar 2025:

Anzeige

Nach fünf Tagen, über 300.000 Nachrichten und schätzungsweise 3.700 kollektiven Stunden wurde das KI-System von Anthropic in der Jailbreaking-Challenge geknackt, wie Anthropic-Forscher Jan Leike auf X mitteilte. Vier Nutzer schafften es durch alle Level, einer fand einen universellen Jailbreak. Insgesamt zahlt Anthropic 55.000 Dollar an die Gewinner aus.

Leike betont, dass mit zunehmender Leistungsfähigkeit der Modelle die Robustheit gegen Jailbreaks zu einer wichtigen Sicherheitsanforderung wird, um Missbrauch im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen Risiken zu verhindern. Die Demo zeigte, dass Klassifikatoren dazu beitragen können, diese Risiken zu mindern, aber mit anderen Methoden kombiniert werden müssen.

Update vom 10. Februar 2025:

Anzeige
Anzeige

Sechs Tage nach dem Start der Challenge wurden alle Sicherheitsmechanismen geknackt.

Wie der Anthropic-Forscher Jan Leike, ehemaliges Mitglied des Alignment-Teams von OpenAI, auf X mitteilte, hat eine Person alle acht Level der Challenge geknackt. Insgesamt seien 3.700 Stunden und rund 300.000 Nachrichten von allen Beteiligten zusammengekommen. Ein universeller Jailbreak, der alle Level der Challenge löst, sei aber noch nicht gefunden worden, so Leike.

Mit zunehmender Leistungsfähigkeit wird ein stärkerer Schutz der Modelle immer wichtiger - gleichzeitig werden universelle Jailbreaks potenziell wertvoller. Es ist daher denkbar, dass sich in Zukunft ein ähnliches Sicherheitsökosystem um Sprachmodelle entwickeln wird, wie es für Betriebssysteme existiert.

Originalartikel vom 04. Februar 2025

Empfehlung

Das KI-Unternehmen Anthropic hat eine Methode entwickelt, die Sprachmodelle vor Manipulationsversuchen schützen soll.

Anthropic hat eine neue Sicherheitstechnik namens "Constitutional Classifiers" vorgestellt, die verhindern soll, dass KI-Modelle durch manipulierte Eingaben (Jailbreaks) zu schädlichen Antworten gezwungen werden können. Laut einem aktuellen Paper des Unternehmens richtet sich die Entwicklung vor allem gegen Universal Jailbreaks - also Eingaben, die systematisch alle Sicherheitsvorkehrungen umgehen können.

In einem ersten Test ließ Anthropic 183 Personen über zwei Monate hinweg versuchen, einen Prototyp des Systems zu überlisten. Die Teilnehmer sollten das KI-Modell Claude 3.5 dazu bringen, zehn verbotene Anfragen zu beantworten. Trotz eines Preisgeldes von 15.000 Dollar und geschätzten 3.000 Stunden Testzeit gelang es niemandem, alle Sicherheitsvorkehrungen auszuhebeln.

Prototyp zeigte hohe Fehlerquote bei harmlosen Anfragen

Der Prototyp hatte allerdings zwei gravierende Schwächen: Er lehnte zu viele harmlose Anfragen ab und verbrauchte zu viel Rechenleistung. Eine verbesserte Version konnte diese Probleme jedoch reduzieren, wie automatisierte Tests mit 10.000 Jailbreak-Versuchen zeigen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Während das ungeschützte Claude-Modell 86 Prozent der Manipulationsversuche zuließ, blockierte die geschützte Version über 95 Prozent. Die Fehlerquote bei harmlosen Anfragen stieg dabei nur minimal um 0,38 Prozent. Der zusätzliche Rechenaufwand beträgt allerdings immer noch 23,7 Prozent.

Synthetische Trainingsdaten als Basis

Nach Angaben von Anthropic basiert das Sicherheitssystem auf vordefinierten Regeln, die erlaubte und unerlaubte Inhalte festlegen. Mithilfe dieser "Verfassung" generiert das System synthetische Trainingsbeispiele in verschiedenen Sprachen und Stilen. Diese dienen als Grundlage für das Training der Klassifikatoren, die später verdächtige Eingaben erkennen sollen.

Bild: Anthropic

Die Forscher räumen ein, dass die Technik nicht jeden Universal Jailbreak verhindern kann. Auch könnten in Zukunft neue Angriffsmethoden entwickelt werden, gegen die das System machtlos ist. Anthropic empfiehlt daher, zusätzliche Sicherheitsmaßnahmen zu implementieren.

Um die Robustheit weiter zu testen, hat das Unternehmen eine öffentliche Demo-Version veröffentlicht. Vom 3. bis 10. Februar 2025 können Experten versuchen, das System zu überlisten. Die Ergebnisse sollen in einem Update veröffentlicht werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic hat eine neue Sicherheitstechnik namens "Constitutional Classifiers" entwickelt, die KI-Sprachmodelle vor Manipulationsversuchen schützen soll, indem sie unzulässige Eingaben erkennt und blockiert.
  • In einem zweimonatigen Test mit 183 Teilnehmern und einem Preisgeld von 15.000 Dollar gelang es niemandem, alle Sicherheitsvorkehrungen des Prototyps auszuhebeln. Eine verbesserte Version konnte in automatisierten Tests über 95 Prozent der Jailbreak-Versuche blockieren, bei nur minimal höherer Fehlerquote bei harmlosen Anfragen.
  • Das Sicherheitssystem basiert auf vordefinierten Regeln, mit denen synthetische Trainingsdaten generiert werden. Diese dienen zum Training von Klassifikatoren, die verdächtige Eingaben erkennen sollen. Anthropic empfiehlt zusätzliche Sicherheitsmaßnahmen und hat eine Demo-Version für weitere Tests veröffentlicht.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!