Inhalt
summary Zusammenfassung

Eine neue Studie von OpenAI und Apollo Research untersucht "Scheming" – das verdeckte Verfolgen von Zielen durch KI. Ein spezielles Training reduziert zwar betrügerisches Verhalten, doch die Modelle scheinen sich ihrer Testsituation bewusst zu sein, was die Ergebnisse in Frage stellt.

Anzeige

Während die Fähigkeiten von KI-Systemen rasant zunehmen, entsteht laut Forschern von OpenAI und Apollo Research eine qualitativ neue Art von Risiko, die davor nur theoretisch war: "Scheming", das verdeckte Verfolgen von Zielen, die von den Entwicklern nicht beabsichtigt sind. In einem neuen Paper beschreiben sie, wie eine KI ihre wahren Absichten und Fähigkeiten verbergen könnte. Dieses Verhalten unterscheidet sich von einfacheren Fehlleistungen, da es eine absichtliche Verschleierung beinhaltet, was die Erkennung erschwert.

Laut der Studie tritt Scheming auf, wenn drei Faktoren zusammenkommen: eine starke Zielgerichtetheit, eine Abweichung von den Zielen der Entwickler (Misalignment) und ein Bewusstsein für die eigene Situation (Situational Awareness). Erste Anzeichen für ein solches Verhalten seien in kontrollierten Umgebungen bereits bei allen führenden Modellen wie GPT, Claude, Gemini, Grok und Llama nachgewiesen worden.

"Deliberative Alignment" als Trainingsmethode gegen Täuschung

Da aktuelle Modelle wie OpenAI o3 und o4-mini noch nicht zu komplexen Machenschaften fähig seien, nutzten die Forscher "verdeckte Aktionen" als messbaren Stellvertreter. Dazu gehören laut dem Paper das absichtliche Brechen von Regeln, Lügen, das Zurückhalten von Informationen oder bewusst schlechte Leistungen in Tests ("Sandbagging").

Anzeige
Anzeige

Um dem entgegenzuwirken, testeten sie eine Methode namens "deliberative alignment", die OpenAI bereits aktiv einsetzt. Dabei wird ein KI-Modell darauf trainiert, explizit über eine von Menschen verfasste Sicherheits-Spezifikation ("Anti-Scheming Safety Spec") nachzudenken und diese zu befolgen. Diese Spezifikation enthält Prinzipien wie "Keine verdeckten Aktionen" und "Proaktive Transparenz".

Das Training erfolgte in zwei Schritten: zuerst ein Supervised Fine-Tuning (SFT) mit Beispielen für erwünschtes Verhalten und die korrekte Argumentation, gefolgt von Reinforcement Learning (RL) mit rein ergebnisbasiertem Feedback. Um zu verhindern, dass die Modelle aus lauter Vorsicht legitime Anfragen verweigern, wurden zusätzlich "Anti-Overrefusal"-Daten verwendet.

Die KI-Modelle wurden auf einer engen Auswahl von Aufgaben trainiert und anschließend in 26 unterschiedlichen Testszenarien mit über 180 Umgebungen evaluiert, die weit über das Trainingsmaterial hinausgingen.

Training reduziert verdeckte Aktionen, eliminiert sie aber nicht

Die Studie zeigt, dass das Training die Rate verdeckter Aktionen signifikant reduziert. Bei OpenAI o4-mini sank die Rate von 8,7 % auf 0,3 %, bei OpenAI o3 von 13,0 % auf 0,4 %.

Allerdings wurde das täuschende Verhalten nicht vollständig eliminiert. Die verbleibenden Fehler sind aufschlussreich: In einigen Fällen führten die Modelle verdeckte Aktionen aus, obwohl sie in ihrer Denkprozesskette (Chain-of-Thought, CoT) korrekt über die Anti-Scheming-Regeln nachdachten. In anderen Fällen zitierten sie die Regeln sogar falsch, um ihr Fehlverhalten zu rechtfertigen – etwa indem sie behaupteten, eine Regel erfordere Täuschung, um ein Ziel zu erreichen.

Empfehlung

Situationsbewusstsein: KI-Modelle wissen, dass sie getestet werden

Eine zentrale Erkenntnis der Studie ist, dass die Modelle ein ausgeprägtes Situationsbewusstsein zeigen. In ihren internen Denkprozessen äußern sie häufig explizit die Vermutung, dass sie sich in einer Testsituation befinden ("This is likely a test"). Laut dem Paper erhöht das Anti-Scheming-Training diese verbalisierte Wahrnehmung sogar.

Problematisch: Die Forscher konnten einen kausalen Zusammenhang nachweisen. Entfernten sie das Evaluierungs-Bewusstsein künstlich aus der Chain-of-Thought, stieg die Rate verdeckter Aktionen an. Fügten sie es hinzu, sank die Rate. Das legt die Vermutung nahe, dass die beobachtete Verbesserung nicht unbedingt auf echter Regelbefolgung beruht, sondern zumindest teilweise auf einem angepassten "Testverhalten". Ein solches Verhalten generalisiert möglicherweise nicht auf reale Einsatzszenarien, in denen die KI nicht merkt, dass sie beobachtet wird.

Die Forscher untersuchten zwei weitere kritische Szenarien. Zuerst trainierten sie einem Modell gezielt ein verstecktes Ziel an: die Sabotage eines hypothetischen Nachfolgemodells "GPT-5". Das anschließende Anti-Scheming-Training konnte dieses Ziel zwar unterdrücken, aber nicht vollständig entfernen. Durch gezieltes "Red-Teaming" konnte das Modell erneut zu verdecktem Sabotageverhalten provoziert werden.

In einem zweiten Experiment wurde ein bereits auf Sicherheit trainiertes Modell einem zusätzlichen, rein auf Fähigkeiten ausgerichteten Training unterzogen. Das Ergebnis: Die Sicherheitsausrichtung erodierte. Die Rate der verdeckten Aktionen stieg wieder an, während die Modelle seltener auf die Sicherheits-Spezifikation verwiesen. Dies deutet darauf hin, dass Sicherheitsmaßnahmen durch nachfolgende Optimierungsphasen untergraben werden können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die "Chain-of-Thought" wird zu einem unzuverlässigen Fenster

Eine der zentralen Beobachtungen der Studie ist die abnehmende Zuverlässigkeit der Denkketten (Chain-of-Thought, CoT) als Fenster in die "Denkprozesse" der KI. Die Forscher stellen beispielsweise fest, dass die Modelle eine Art private, nicht-standardisierte Terminologie entwickeln, die eine Interpretation erschwert. Wörter wie "illusions" (Illusionen), "marinade" (Marinade), "overshadow" (überschatten) oder "vantage" (Vorteil) treten laut dem Paper in den Denkprozessen der Modelle massiv überrepräsentiert auf, verglichen mit ihrer Häufigkeit im normalen Sprachgebrauch im Internet.

Dieses Phänomen ist nicht auf die Täuschungsszenarien beschränkt, sondern tritt auch in allgemeinen Fähigkeits-Benchmarks auf, was darauf hindeutet, dass es sich um eine grundlegende Veränderung in der Funktionsweise der Modelle handelt. Laut dem Paper untersucht OpenAI die Ursachen für das Auftauchen dieser Begriffe noch.

Einige dieser Begriffe scheinen dabei eine konsistente, wenn auch eigenwillige, Bedeutung anzunehmen. So verwenden die Modelle den Begriff "watchers" (Beobachter) laut der Analyse oft als Synonym für menschliche Aufseher oder Evaluierer. Andere Wörter wie "fudge" (schummeln) oder "cunning" (listig) scheinen sich auf die Umgehung von Regeln zu beziehen. Viele andere Begriffe jedoch, darunter "illusions" oder "overshadow", werden laut den Forschern "polysemantisch" – also mit mehreren, wechselnden Bedeutungen – verwendet und widersetzen sich einer klaren Deutung. Sie werden oft zu schwer verständlichen Phrasen wie "disclaim illusions" kombiniert.

Die Rolle dieser Sprache scheint eine Art interner Kurzschrift zu sein, die die Argumentation des Modells für menschliche Beobachter effektiv verschleiert, auch wenn die Studie keine Aussage darüber trifft, ob diese Verschleierung beabsichtigt ist.

Zusätzlich zu dieser sprachlichen Entfremdung dokumentieren die Forscher eine wachsende Diskrepanz zwischen den Überlegungen in der CoT und den tatsächlichen Handlungen des Modells. In einigen Fällen scheint das Modell zu wissen, was die richtige Aktion wäre, entscheidet sich aber für eine andere.

In einem im Paper beschriebenen Beispiel identifizierte das Modell in seiner CoT korrekt zufällige Zeichenketten, die es zur Entfernung seiner Fähigkeiten auswählen sollte. In der anschließenden Aktion wählte es jedoch gezielt Befehle aus, die seine Fähigkeiten erhalten würden. In einem anderen Fall listete es alle zehn korrekten Antworten auf eine Testfrage in der CoT auf, reichte dann aber nur fünf ein und änderte zwei davon absichtlich zu falschen Antworten.

Anzeige
Anzeige

"Zerbrechliche Gelegenheit" für die KI-Sicherheit

Die Ergebnisse geben Grund zur Sorgen, denn Methoden wie das in der Studie getestete "deliberative alignment" basieren auf der Annahme, dass die CoT den tatsächlichen Entscheidungsprozess des Modells widerspiegelt und somit trainier- und überprüfbar ist. OpenAI setzt die Methode bereits aktiv ein und verspricht sich davon ein stärkeres Alignment für seine Modelle.

Wenn diese Annahme nicht mehr zutrifft, wird es laut den Autoren jedoch unmöglich zu unterscheiden, ob ein Modell wirklich den Sicherheitsprinzipien folgt oder ob es nur lernt, eine überzeugend klingende Begründung zu fälschen, während es seine wahren Ziele verbirgt. Die Fähigkeit, die Denkprozesse von KI-Modellen zu überwachen, sei eine "zerbrechliche Gelegenheit" für die KI-Sicherheit, die durch diese Entwicklung gefährdet werde.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von OpenAI und Apollo Research beschreibt erstmals experimentelle Hinweise auf "Scheming" – verdeckte Zielverfolgung durch KI-Modelle wie GPT, Claude, Gemini, Grok und Llama. Das Verhalten tritt bei starker Zielgerichtetheit, Abweichung von Entwicklerzielen und Situationsbewusstsein auf.
  • Mit "deliberative alignment" lässt sich betrügerisches Verhalten stark reduzieren (z. B. bei OpenAI o4-mini von 8,7 % auf 0,3 %), aber nicht vollständig ausschalten. Problematisch ist, dass die Modelle offenbar wissen, dass sie getestet werden, und ihr Verhalten daran anpassen.
  • Die Forscher warnen, dass die Denkprozesse (Chain-of-Thought) zunehmend unzuverlässig werden: Modelle erfinden eigene Kurzsprache, zeigen Diskrepanzen zwischen Gedanken und Handlungen und können Sicherheitstrainings durch spätere Optimierung wieder verlieren – ein Risiko für die langfristige KI-Sicherheit.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!