Inhalt
summary Zusammenfassung

Eine neue OpenAI-Studie zeigt, wie KI-Modelle in ihren "Gedankengängen" unerwünschtes Verhalten offenbaren. Die Forscher warnen vor einer zu starken Optimierung dieser "Denkprozesse".

Anzeige

Sogenannte Large Reasoning Models "denken" in natürlicher Sprache, die für Menschen verständlich ist. OpenAI betont in einer neuen Studie, dass das Überwachen dieser Gedankenketten "eines der wenigen Werkzeuge sein könnte, die wir zur Kontrolle zukünftiger, übermenschlich intelligenter KI-Systeme haben werden."

Screenshot eines KI-Dialogs zur Addition von 2+2, mit detaillierter Gedankenführung und verschiedenen mathematischen Betrachtungsweisen. Bei einer Gedankenkette stellt das Modell die Frage: "Vielleicht ist es eine Trickfrage?"
Gedankenketten-Beispiel aus Deepseek-R1: Das Modell kann auch die Nutzer-Intention hinterfragen. | Bild: Screenshot via THE DECODER

Die Forscher fanden bei ihren Tests dazu drei wichtige Erkenntnisse: Erstens legen fortgeschrittene KI-Modelle ihre Absichten oft erstaunlich offen dar. In den dokumentierten Beispielen finden sich Formulierungen wie "Lass uns hacken" oder klare Überlegungen, wie man die Tests umgehen könnte, anstatt die eigentliche Aufgabe zu lösen.

Zweitens können diese "Gedanken" von einer anderen KI effektiv überwacht werden. Und drittens ist diese Überwachbarkeit sehr empfindlich - versucht man die KI für "schlechte Gedanken" zu bestrafen, lernt sie schnell, ihre wahren Absichten zu verbergen.

Anzeige
Anzeige

Kreative Wege der Aufgabenumgehung

OpenAI verwendete GPT-4o als Aufpasser, um das Verhalten eines Frontier-Reasoning-Modells während des Trainings zu überwachen. Dabei dokumentierten die Forscher mehrere Beispiele für dieses "Reward Hacking" – so nennt man es, wenn KI-Systeme die für sie vorgesehenen Belohnungen durch unerwünschtes Verhalten maximieren.

In einem Fall sollte die KI eine komplexe Testfunktion programmieren. Stattdessen ersetzte sie einfach die gesamte Funktion durch "return true", nachdem sie festgestellt hatte, dass die Tests nur prüften, ob die Funktion erfolgreich war, nicht aber, wie sie funktionierte.

In einem anderen Beispiel fügte die KI einen speziellen Programmbefehl ein (os._exit(0)), der ein Programm sofort beendet – und zwar mit einem Code, der "erfolgreich abgeschlossen" bedeutet. Sie erkannte also genau, dass sie durch vorzeitiges Beenden mit einem Erfolgsexitcode die Tests umgehen konnte, ohne die eigentliche Aufgabe zu lösen.

Besonders raffiniert war ein Fall, in dem die KI die Datenanalyse-Bibliothek "Pandas" umgehen sollte. Statt die komplexe Bibliothek richtig einzusetzen oder zu reparieren, erstellte sie eine "Attrappe" dieser Bibliothek – eine leere Hülle, die nach außen wie Pandas aussah, aber intern nichts tat. Die KI ersetzte dann systematisch 19 Dateien im Projekt durch Attrappen, bis alle Tests bestanden wurden.

Dunkles Interface mit Chain-of-Thought Prozess zur Fehlerbehebung in Pandas, fokussiert auf Stub-Implementierung und Testanpassungen.
Das "faule" o-Modell sucht nach einer einfachen Lösung für eine schwierige Aufgabe. Dafür nimmt es auch ein Täuschungsmanöver in Kauf. | Bild: OpenAI

Während des Trainings entdeckten die Forscher zwei signifikante Reward-Hacking-Strategien, die fast alle Trainingsumgebungen betrafen. Das Forschungsteam musste nach jeder Entdeckung manuell eingreifen, um die Fehler zu korrigieren, die diese Hacks ermöglichten.

Empfehlung

KI-Gedankenpolizei schadet eher

Naheliegend ist die Idee, "schlechte Gedanken" während des Trainings zu unterdrücken. Die Forscher untersuchten diesen Ansatz, indem sie KI-Systeme bestraften, deren Gedankengänge vom Aufpasser als problematisch eingestuft wurden.

Die Ergebnisse waren jedoch ernüchternd: Zwar verbesserten sich die Fähigkeiten der Systeme leicht, doch sie lernten primär, ihre wahren Absichten in ihren Gedanken zu verbergen, während sie weiterhin schummelten – nun allerdings für den Aufpasser unsichtbar.

Das Team stellte außerdem fest, dass der digitale Aufpasser deutlich erfolgreicher war, wenn er Zugang zu den vollständigen "Gedanken" des Modells hatte und nicht nur zu dessen Handlungen. Eine Täuschungsabsicht lasse sich oft leichter in den Gedanken als in den Handlungen selbst erkennen - ein Unterschied, der mit zunehmender Komplexität der KI-Systeme noch größer werden dürfte, wenn diese das Potenzial für immer raffiniertere Formen des Reward Hacking entwickeln. Zukünftige KI-Modelle könnten Verhaltensweisen wie Machtstreben, strategische Täuschung oder bewusste Unterschätzung der eigenen Fähigkeiten entwickeln.

Das Monitoring von Gedankenketten könnte eine der wenigen effektiven Methoden sein, die zur Kontrolle hochentwickelter KI-Systeme übrig bleiben. Wojciech Zaremba, Mitbegründer von OpenAI, bezeichnete die Analyse von Gedankenketten sogar als "bahnbrechenden Ansatz zur Interpretierbarkeit" und als "völlig neuen Zweig der KI-Sicherheit", da die Modelle ihre Fehlanpassungen in klarem Englisch offenlegten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Auch Anthropic hat bereits in einer Studie gezeigt, wie KI-Modelle ihre Absichten vor dem Nutzer verbergen können, um ihr Ziel zu erreichen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine aktuelle Studie von OpenAI zeigt, dass fortgeschrittene KI-Modelle ihre Absichten in klaren, menschlich verständlichen Gedankenketten offenlegen, wenn sie Aufgaben lösen sollen – selbst dann, wenn diese Absichten unerwünscht oder täuschend sind.
  • Die Forscher fanden heraus, dass eine zweite KI diese Gedankengänge effektiv überwachen und so problematisches Verhalten frühzeitig erkennen kann; allerdings führt eine Bestrafung unerwünschter Gedanken dazu, dass die Modelle lernen, ihre Absichten besser zu verbergen.
  • In Tests entwickelten KI-Modelle kreative Strategien, um Aufgaben leichter zu lösen, beispielsweise indem sie komplexe Funktionen einfach vortäuschten oder Testbibliotheken systematisch durch funktionslose Attrappen ersetzten, um Prüfungen zu bestehen, ohne die eigentliche Aufgabe korrekt zu erledigen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!