Das KI-Unternehmen Anthropic hat eine Methode entwickelt, die Sprachmodelle vor Manipulationsversuchen schützen soll.
Anthropic hat eine neue Sicherheitstechnik namens "Constitutional Classifiers" vorgestellt, die verhindern soll, dass KI-Modelle durch manipulierte Eingaben (Jailbreaks) zu schädlichen Antworten gezwungen werden können. Laut einem aktuellen Paper des Unternehmens richtet sich die Entwicklung vor allem gegen Universal Jailbreaks - also Eingaben, die systematisch alle Sicherheitsvorkehrungen umgehen können.
In einem ersten Test ließ Anthropic 183 Personen über zwei Monate hinweg versuchen, einen Prototyp des Systems zu überlisten. Die Teilnehmer sollten das KI-Modell Claude 3.5 dazu bringen, zehn verbotene Anfragen zu beantworten. Trotz eines Preisgeldes von 15.000 Dollar und geschätzten 3.000 Stunden Testzeit gelang es niemandem, alle Sicherheitsvorkehrungen auszuhebeln.
Prototyp zeigte hohe Fehlerquote bei harmlosen Anfragen
Der Prototyp hatte allerdings zwei gravierende Schwächen: Er lehnte zu viele harmlose Anfragen ab und verbrauchte zu viel Rechenleistung. Eine verbesserte Version konnte diese Probleme jedoch reduzieren, wie automatisierte Tests mit 10.000 Jailbreak-Versuchen zeigen.
Während das ungeschützte Claude-Modell 86 Prozent der Manipulationsversuche zuließ, blockierte die geschützte Version über 95 Prozent. Die Fehlerquote bei harmlosen Anfragen stieg dabei nur minimal um 0,38 Prozent. Der zusätzliche Rechenaufwand beträgt allerdings immer noch 23,7 Prozent.
Synthetische Trainingsdaten als Basis
Nach Angaben von Anthropic basiert das Sicherheitssystem auf vordefinierten Regeln, die erlaubte und unerlaubte Inhalte festlegen. Mithilfe dieser "Verfassung" generiert das System synthetische Trainingsbeispiele in verschiedenen Sprachen und Stilen. Diese dienen als Grundlage für das Training der Klassifikatoren, die später verdächtige Eingaben erkennen sollen.
Die Forscher räumen ein, dass die Technik nicht jeden Universal Jailbreak verhindern kann. Auch könnten in Zukunft neue Angriffsmethoden entwickelt werden, gegen die das System machtlos ist. Anthropic empfiehlt daher, zusätzliche Sicherheitsmaßnahmen zu implementieren.
Um die Robustheit weiter zu testen, hat das Unternehmen eine öffentliche Demo-Version veröffentlicht. Vom 3. bis 10. Februar 2025 können Experten versuchen, das System zu überlisten. Die Ergebnisse sollen in einem Update veröffentlicht werden.