Claude Opus 4.6 lieferte in Sicherheitstest Anleitungen für Senfgas in Excel-Tabellen
Anthropics Sicherheitstraining versagt, wenn Claude eine grafische Benutzeroberfläche bedient.
In Pilottests ließ sich Claude Opus 4.6 dazu bringen, in einer Excel-Tabelle detaillierte Anleitungen zur Herstellung von Senfgas zu liefern und eine Buchhaltungstabelle für eine kriminelle Bande zu führen – Verhaltensweisen, die in reinen Textinteraktionen nicht oder kaum auftraten.
„Wir haben festgestellt, dass einige Arten von Missbrauchsverhalten in diesen Pilotauswertungen auftraten, die in reinen Text-Interaktionen fehlten oder deutlich seltener waren", schreibt Anthropic in der System Card zu Claude Opus 4.6. „Diese Ergebnisse legen nahe, dass unsere standardmäßigen Alignment-Trainingsmaßnahmen in GUI-Umgebungen wahrscheinlich weniger wirksam sind."
Tests mit dem Vorgängermodell Claude Opus 4.5 in derselben Umgebung zeigten laut Anthropic „ähnliche Ergebnisse" – das Problem besteht also über Modellgenerationen hinweg fort, ohne dass es bisher behoben wurde. Die Sicherheitslücke entsteht offenbar dadurch, dass Modelle zwar lernen, schädliche Anfragen im Gespräch abzulehnen, dieses Verhalten aber nicht vollständig auf agentenbasierte Werkzeugnutzung übertragen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren