Inhalt
summary Zusammenfassung

Das KI-Unternehmen Anthropic hat eine Methode entwickelt, die Sprachmodelle vor Manipulationsversuchen schützen soll.

Anzeige

Anthropic hat eine neue Sicherheitstechnik namens "Constitutional Classifiers" vorgestellt, die verhindern soll, dass KI-Modelle durch manipulierte Eingaben (Jailbreaks) zu schädlichen Antworten gezwungen werden können. Laut einem aktuellen Paper des Unternehmens richtet sich die Entwicklung vor allem gegen Universal Jailbreaks - also Eingaben, die systematisch alle Sicherheitsvorkehrungen umgehen können.

In einem ersten Test ließ Anthropic 183 Personen über zwei Monate hinweg versuchen, einen Prototyp des Systems zu überlisten. Die Teilnehmer sollten das KI-Modell Claude 3.5 dazu bringen, zehn verbotene Anfragen zu beantworten. Trotz eines Preisgeldes von 15.000 Dollar und geschätzten 3.000 Stunden Testzeit gelang es niemandem, alle Sicherheitsvorkehrungen auszuhebeln.

Prototyp zeigte hohe Fehlerquote bei harmlosen Anfragen

Der Prototyp hatte allerdings zwei gravierende Schwächen: Er lehnte zu viele harmlose Anfragen ab und verbrauchte zu viel Rechenleistung. Eine verbesserte Version konnte diese Probleme jedoch reduzieren, wie automatisierte Tests mit 10.000 Jailbreak-Versuchen zeigen.

Anzeige
Anzeige

Während das ungeschützte Claude-Modell 86 Prozent der Manipulationsversuche zuließ, blockierte die geschützte Version über 95 Prozent. Die Fehlerquote bei harmlosen Anfragen stieg dabei nur minimal um 0,38 Prozent. Der zusätzliche Rechenaufwand beträgt allerdings immer noch 23,7 Prozent.

Synthetische Trainingsdaten als Basis

Nach Angaben von Anthropic basiert das Sicherheitssystem auf vordefinierten Regeln, die erlaubte und unerlaubte Inhalte festlegen. Mithilfe dieser "Verfassung" generiert das System synthetische Trainingsbeispiele in verschiedenen Sprachen und Stilen. Diese dienen als Grundlage für das Training der Klassifikatoren, die später verdächtige Eingaben erkennen sollen.

Bild: Anthropic

Die Forscher räumen ein, dass die Technik nicht jeden Universal Jailbreak verhindern kann. Auch könnten in Zukunft neue Angriffsmethoden entwickelt werden, gegen die das System machtlos ist. Anthropic empfiehlt daher, zusätzliche Sicherheitsmaßnahmen zu implementieren.

Um die Robustheit weiter zu testen, hat das Unternehmen eine öffentliche Demo-Version veröffentlicht. Vom 3. bis 10. Februar 2025 können Experten versuchen, das System zu überlisten. Die Ergebnisse sollen in einem Update veröffentlicht werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic hat eine neue Sicherheitstechnik namens "Constitutional Classifiers" entwickelt, die KI-Sprachmodelle vor Manipulationsversuchen schützen soll, indem sie unzulässige Eingaben erkennt und blockiert.
  • In einem zweimonatigen Test mit 183 Teilnehmern und einem Preisgeld von 15.000 Dollar gelang es niemandem, alle Sicherheitsvorkehrungen des Prototyps auszuhebeln. Eine verbesserte Version konnte in automatisierten Tests über 95 Prozent der Jailbreak-Versuche blockieren, bei nur minimal höherer Fehlerquote bei harmlosen Anfragen.
  • Das Sicherheitssystem basiert auf vordefinierten Regeln, mit denen synthetische Trainingsdaten generiert werden. Diese dienen zum Training von Klassifikatoren, die verdächtige Eingaben erkennen sollen. Anthropic empfiehlt zusätzliche Sicherheitsmaßnahmen und hat eine Demo-Version für weitere Tests veröffentlicht.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!