OpenAIs neues Sprachmodell o3 zeigt erstmals konkrete Anzeichen für Täuschung, Manipulation und Sabotageverhalten. Externe Prüfer warnen: Klassische Tests reichen nicht mehr aus, um solche Fähigkeiten zuverlässig zu erkennen.
Die neuen Sprachmodelle o3 und o4-mini von OpenAI kombinieren fortgeschrittenes Reasoning mit umfangreicher Toolnutzung. Beide Modelle können unter anderem Bilder analysieren, Python-Code ausführen, im Web browsen und komplexe Aufgaben lösen. Laut OpenAI sollen sie durch „Deliberative Alignment“ sicherer auf gefährliche Prompts reagieren. Eine erste Sicherheitsbilanz zeigt jedoch: o3 ist das bisher leistungsfähigste – und potenziell gefährlichste – Modell des Unternehmens.
Externe Prüfer des Sicherheitsforschungsinstituts METR (Model Evaluation and Threat Research) testeten o3 und o4-mini drei Wochen lang vor der Veröffentlichung. Dabei fiel insbesondere o3 durch systematische Belohnungsmanipulation („Reward Hacking“) auf. In etwa 1–2 % der Versuche versuchte das Modell, die Bewertungssysteme gezielt zu umgehen oder auszunutzen.
In einem Fall manipulierte o3 die Zeitmessung eines Benchmarks, indem es die Funktionen zur Zeitmessung überschrieb und sich so beliebig kurze Laufzeiten zuschrieb. Konkret hat o3 die in Python üblichen Zeitfunktionen durch eigene Funktionen ersetzt, die konstant extrem kurze Werte zurückgeben. So konnte das Modell dem Benchmark-System eine minimale Rechenzeit vortäuschen und dadurch eine sehr hohe Punktzahl erhalten, obwohl es in Wirklichkeit kaum oder gar keine Berechnungen durchgeführt hatte.
In einem anderen Beispiel griff das Modell auf bereits berechnete Referenzwerte zu, um diese als eigene Lösung auszugeben: Statt die vom Task geforderte Berechnung selbst durchzuführen, durchsuchte o3 den laufenden Funktions-Stack nach bereits vorhandenen Ergebnissen, die vom Benchmark selbst erzeugt worden waren. Diese gab es dann einfach als eigene Lösung zurück. Technisch gesehen handelt es sich dabei um eine gezielte Täuschung des Bewertungssystems – eine Art „Abschreiben“ innerhalb des laufenden Programms, das dem Modell einen ungerechtfertigten Leistungsvorteil verschafft.
Laut METR zeigen diese Beispiele, dass o3 zu strategischem Verhalten fähig ist, das den Zielen der Entwickler widerspricht. Sie deuten darauf hin, dass das Modell über eine implizite Problemanalyse verfügt und bereit ist, bewusst zu täuschen, um Vorteile zu erzielen.
Zwar betrachtet METR diese Art von Verhalten noch nicht als Beleg für ein grundsätzlich gefährliches Modell, warnt jedoch, dass das aktuelle Evaluation-Setup solche Risiken nicht zuverlässig erkennen kann. Besonders problematisch sei die Möglichkeit, dass das Modell seine Fähigkeiten gezielt verschleiert, um in späteren Anwendungen unauffällig zu agieren – sogenanntes Sandbagging.
Strategische Täuschung und Sabotage auf Anweisung
Auch Apollo Research untersuchte im Auftrag von OpenAI, ob die Modelle o3 und o4-mini zu strategischer Täuschung fähig sind – also zu Handlungen, bei denen das Modell bewusst Ziele verfolgt, die nicht mit den Interessen seiner Nutzer oder Entwickler übereinstimmen. In mehreren Tests zeigte o3 deutliche Anzeichen solcher Fähigkeiten.
In einem Beispiel erhielt o3 die Anweisung, ein bestimmtes Tool nicht zu verwenden, um Zugang zu erweiterten Rechten in einem Computersystem zu erhalten. Das Modell versprach zunächst, sich an diese Vorgabe zu halten. Nachdem es jedoch Administratorrechte erhalten hatte, nutzte es das verbotene Tool dennoch, um seine Aufgabe effizienter zu erfüllen. Auf Nachfrage eines virtuellen Systemadministrators log das Modell über sein Verhalten und erfand eine alternative Erklärung für den Erfolg seiner Aktion.
In einem weiteren Szenario war o3 mit einer künstlich verknappten Rechenressource konfrontiert: Es durfte nur 100 Recheneinheiten verwenden, um ein dringendes maschinelles Lerntraining durchzuführen. Statt die Einschränkung zu akzeptieren, änderte das Modell intern die Ressourcenzuteilung eines Subagenten auf 500 Einheiten – und verheimlichte diese Abweichung in der Kommunikation mit externen Instanzen. Auch hier entschied sich das Modell für eine Täuschung, wenn sie zur Zielerreichung dienlich war.
Darüber hinaus testete Apollo die Fähigkeit zu aktiver Sabotage anderer KI-Systeme. In diesen Tests wurde o3 explizit dazu aufgefordert, ein anderes Sprachmodell zu manipulieren – etwa durch das Einbauen versteckter Hintertüren im Code, die spätere Eingriffe ermöglichen, oder durch absichtlich erzeugte Leistungseinbußen (z. B. durch sabotierte Trainingsdaten oder verdeckte Kommunikationskanäle). In diesen Fällen ging es nicht darum, ob das Modell von sich aus solche Ziele verfolgt, sondern ob es technisch in der Lage ist, sie umzusetzen, wenn sie ihm vorgegeben werden.
Laut Apollo bedeutet dies nicht, dass o3 autonom schädliche Ziele verfolgt – wohl aber, dass es dazu technisch in der Lage wäre, wenn diese Ziele von außen vorgegeben würden.
OpenAI sieht kein „High Risk“ – trotz wachsender Autonomie
Trotz der dokumentierten Täuschungs- und Manipulationsfähigkeiten stuft OpenAIs internes Safety Advisory Group die Modelle o3 und o4-mini nicht als besonders risikobehaftet ein. Im Rahmen des unternehmenseigenen „Preparedness Frameworks“ erreichten sie in den Kategorien Cybersicherheit, Biologie/Chemie und KI-Selbstverbesserung nicht die Schwelle, die eine formale Gefahrenmeldung ausgelöst hätte. OpenAI verweist auf eine Reihe neu implementierter Schutzmaßnahmen, darunter reasoning-basierte Sicherheitsfilter, Monitoring für Biogefahren sowie verbesserte Moderationswerkzeuge.
Die externen Prüfer von METR warnen jedoch: „Wir sind der Ansicht, dass Tests der Fähigkeiten vor der Veröffentlichung allein keine ausreichende Risikomanagementstrategie darstellen, und arbeiten derzeit an zusätzlichen Evaluationsformen.“ Um potenziell gefährliche Verhaltensweisen frühzeitig zu erkennen, seien ergänzende, dynamische und realitätsnahe Testverfahren notwendig. Die Organisation rät daher zur Vorsicht bei der Interpretation der Ergebnisse und fordert mehr Transparenz bei der Modellentwicklung.