Die KI-Rivalen OpenAI und Anthropic haben in einer erstmaligen Zusammenarbeit die Sicherheitslücken der jeweils anderen Modelle aufgedeckt. Gleichzeitig zeigen neue Berichte, wie KI bereits für Cyberkriminalität missbraucht wird, und Anthropic schmiedet eine enge Allianz mit dem US-Sicherheitsapparat.
Die konkurrierenden KI-Labore OpenAI und Anthropic haben erstmalig die Sicherheitssysteme ihrer jeweiligen Spitzenmodelle gegenseitig getestet. Die Übung sollte laut den Unternehmen dazu dienen, "blinde Flecken" in den eigenen Sicherheitstests aufzudecken und die Zusammenarbeit bei Sicherheitsfragen zu demonstrieren. OpenAI testete dabei Anthropics Modelle Claude Opus 4 und Sonnet 4, während Anthropic die OpenAI-Modelle GPT-4o, GPT-4.1, o3 und o4-mini untersuchte.
Die Veröffentlichung der Ergebnisse erfolgt parallel zu zwei weiteren Ankündigungen von Anthropic: einem Bericht über den bereits stattfindenden, schweren Missbrauch seiner KI-Modelle durch Kriminelle und der Gründung eines hochkarätigen Beirats zur Beratung in Fragen der nationalen Sicherheit.
Gemischte Ergebnisse im KI-Sicherheits-Stresstest
Die Resultate der gemeinsamen Evaluierung zeichnen ein komplexes Bild. Laut Anthropics Bericht zeigte das spezialisierte "Reasoning"-Modell o3 von OpenAI ein Verhalten, das Anthropic als "besser ausgerichtet" als das der eigenen Modelle bewertete. Die Allzweckmodelle GPT-4o und GPT-4.1 erwiesen sich in den simulierten Tests jedoch als anfälliger für Missbrauch. Sie kooperierten demnach mit Anfragen zur Planung von Terroranschlägen, zur Entwicklung von Biowaffen und zur Drogensynthese mit nur geringem Widerstand.
OpenAIs Gegenanalyse ergab, dass die Claude-Modelle besonders gut darin sind, Anweisungshierarchien zu befolgen. Ihre größte Schwäche zeigte sich bei Halluzinationstests: Um Falschaussagen zu vermeiden, verweigerten die Modelle die Antwort in bis zu 70 Prozent der Fälle, was ihre Nützlichkeit in solchen Fällen stark einschränke. Bei bestimmten Jailbreak-Angriffen waren die Claude-Modelle zudem anfälliger als die Konkurrenz von OpenAI.
Beide Unternehmen betonen, dass es sich um künstliche Stresstests handelt, die nicht das Verhalten der Modelle im realen Einsatz widerspiegeln. Anthropic räumte zudem ein, dass die eigene Test-Infrastruktur die OpenAI-Modelle bei Aufgaben mit Werkzeugnutzung benachteiligt haben könnte.
Vom Test zur Realität: KI als Waffe für Cyberkriminelle
Während die Labore potenzielle Risiken in Simulationen erforschen, zeigt ein separater Bericht von Anthropic, dass KI bereits heute für Cyberkriminalität instrumentalisiert wird. Das Unternehmen beschreibt darin mehrere Fälle, in denen sein Modell Claude missbraucht wurde.
In einem Fall, der als "'Vibe hacking'" bezeichnet wird, nutzte ein Krimineller Claude Code als weitgehend autonomen Akteur für Datendiebstahl und Erpressung. Laut Anthropic traf die KI dabei sowohl taktische als auch strategische Entscheidungen, etwa welche Daten gestohlen oder welche Lösegeldsummen gefordert werden sollten. In einem anderen Fall setzten nordkoreanische Akteure Claude ein, um sich betrügerisch Remote-Arbeitsplätze in US-Technologieunternehmen zu erschleichen. Ein dritter Fall beschreibt einen technisch wenig versierten Akteur, der mithilfe von Claude Ransomware entwickelte und als Dienstleistung verkaufte.
Der Bericht kommt zu dem Schluss, dass agentische KI die Hürden für komplexe Cyberkriminalität senkt und von Kriminellen bereits in alle Phasen ihrer Operationen integriert wird.
Anthropic vertieft Partnerschaft mit US-Sicherheitsapparat
Zeitgleich zu den Sicherheitsberichten gab Anthropic die Gründung eines National Security and Public Sector Advisory Council bekannt. Dieses Gremium soll das Unternehmen dabei unterstützen, "die US-Regierung und eng verbündete Demokratien dabei zu unterstützen, in einer Ära des strategischen Wettbewerbs dauerhafte technologische Vorteile aufzubauen und zu erhalten".
Dem überparteilichen Beirat gehören hochrangige ehemalige Regierungsbeamte an, darunter die früheren US-Senatoren Roy Blunt und Jon Tester, der ehemalige stellvertretende CIA-Direktor David S. Cohen sowie der frühere amtierende US-Verteidigungsminister Patrick M. Shanahan.
Dieser Schritt formalisiert Anthropics zunehmend engere Beziehung zum öffentlichen Sektor der USA. Das Unternehmen hat bereits eine 200-Millionen-Dollar-Partnerschaft mit dem US-Verteidigungsministerium, entwickelt spezielle KI-Modelle für Regierungskunden und arbeitet mit nationalen Nuklearlaboren zusammen.