Inhalt
summary Zusammenfassung

Die KI-Rivalen OpenAI und Anthropic haben in einer erstmaligen Zusammenarbeit die Sicherheitslücken der jeweils anderen Modelle aufgedeckt. Gleichzeitig zeigen neue Berichte, wie KI bereits für Cyberkriminalität missbraucht wird, und Anthropic schmiedet eine enge Allianz mit dem US-Sicherheitsapparat.

Anzeige

Die konkurrierenden KI-Labore OpenAI und Anthropic haben erstmalig die Sicherheitssysteme ihrer jeweiligen Spitzenmodelle gegenseitig getestet. Die Übung sollte laut den Unternehmen dazu dienen, "blinde Flecken" in den eigenen Sicherheitstests aufzudecken und die Zusammenarbeit bei Sicherheitsfragen zu demonstrieren. OpenAI testete dabei Anthropics Modelle Claude Opus 4 und Sonnet 4, während Anthropic die OpenAI-Modelle GPT-4o, GPT-4.1, o3 und o4-mini untersuchte.

Die Veröffentlichung der Ergebnisse erfolgt parallel zu zwei weiteren Ankündigungen von Anthropic: einem Bericht über den bereits stattfindenden, schweren Missbrauch seiner KI-Modelle durch Kriminelle und der Gründung eines hochkarätigen Beirats zur Beratung in Fragen der nationalen Sicherheit.

Gemischte Ergebnisse im KI-Sicherheits-Stresstest

Die Resultate der gemeinsamen Evaluierung zeichnen ein komplexes Bild. Laut Anthropics Bericht zeigte das spezialisierte "Reasoning"-Modell o3 von OpenAI ein Verhalten, das Anthropic als "besser ausgerichtet" als das der eigenen Modelle bewertete. Die Allzweckmodelle GPT-4o und GPT-4.1 erwiesen sich in den simulierten Tests jedoch als anfälliger für Missbrauch. Sie kooperierten demnach mit Anfragen zur Planung von Terroranschlägen, zur Entwicklung von Biowaffen und zur Drogensynthese mit nur geringem Widerstand.

Anzeige
Anzeige

OpenAIs Gegenanalyse ergab, dass die Claude-Modelle besonders gut darin sind, Anweisungshierarchien zu befolgen. Ihre größte Schwäche zeigte sich bei Halluzinationstests: Um Falschaussagen zu vermeiden, verweigerten die Modelle die Antwort in bis zu 70 Prozent der Fälle, was ihre Nützlichkeit in solchen Fällen stark einschränke. Bei bestimmten Jailbreak-Angriffen waren die Claude-Modelle zudem anfälliger als die Konkurrenz von OpenAI.

Beide Unternehmen betonen, dass es sich um künstliche Stresstests handelt, die nicht das Verhalten der Modelle im realen Einsatz widerspiegeln. Anthropic räumte zudem ein, dass die eigene Test-Infrastruktur die OpenAI-Modelle bei Aufgaben mit Werkzeugnutzung benachteiligt haben könnte.

Vom Test zur Realität: KI als Waffe für Cyberkriminelle

Während die Labore potenzielle Risiken in Simulationen erforschen, zeigt ein separater Bericht von Anthropic, dass KI bereits heute für Cyberkriminalität instrumentalisiert wird. Das Unternehmen beschreibt darin mehrere Fälle, in denen sein Modell Claude missbraucht wurde.

In einem Fall, der als "'Vibe hacking'" bezeichnet wird, nutzte ein Krimineller Claude Code als weitgehend autonomen Akteur für Datendiebstahl und Erpressung. Laut Anthropic traf die KI dabei sowohl taktische als auch strategische Entscheidungen, etwa welche Daten gestohlen oder welche Lösegeldsummen gefordert werden sollten. In einem anderen Fall setzten nordkoreanische Akteure Claude ein, um sich betrügerisch Remote-Arbeitsplätze in US-Technologieunternehmen zu erschleichen. Ein dritter Fall beschreibt einen technisch wenig versierten Akteur, der mithilfe von Claude Ransomware entwickelte und als Dienstleistung verkaufte.

Der Bericht kommt zu dem Schluss, dass agentische KI die Hürden für komplexe Cyberkriminalität senkt und von Kriminellen bereits in alle Phasen ihrer Operationen integriert wird.

Empfehlung

Anthropic vertieft Partnerschaft mit US-Sicherheitsapparat

Zeitgleich zu den Sicherheitsberichten gab Anthropic die Gründung eines National Security and Public Sector Advisory Council bekannt. Dieses Gremium soll das Unternehmen dabei unterstützen, "die US-Regierung und eng verbündete Demokratien dabei zu unterstützen, in einer Ära des strategischen Wettbewerbs dauerhafte technologische Vorteile aufzubauen und zu erhalten".

Dem überparteilichen Beirat gehören hochrangige ehemalige Regierungsbeamte an, darunter die früheren US-Senatoren Roy Blunt und Jon Tester, der ehemalige stellvertretende CIA-Direktor David S. Cohen sowie der frühere amtierende US-Verteidigungsminister Patrick M. Shanahan.

Dieser Schritt formalisiert Anthropics zunehmend engere Beziehung zum öffentlichen Sektor der USA. Das Unternehmen hat bereits eine 200-Millionen-Dollar-Partnerschaft mit dem US-Verteidigungsministerium, entwickelt spezielle KI-Modelle für Regierungskunden und arbeitet mit nationalen Nuklearlaboren zusammen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI und Anthropic haben erstmals die Sicherheitssysteme ihrer Modelle gegenseitig getestet und dabei sowohl Stärken als auch Schwächen entdeckt, etwa bei Missbrauchsanfälligkeit und Halluzinationen.
  • Ein Bericht von Anthropic zeigt, dass Kriminelle KI bereits für Datendiebstahl, Erpressung und Betrug nutzen und agentische KI die Hürden für Cyberkriminalität senkt.
  • Anthropic gründet einen Beirat mit ehemaligen US-Regierungsmitgliedern, um die Zusammenarbeit mit dem US-Sicherheitsapparat auszubauen.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!