Anthropic-Studie zeigt: KI-Modelle verschleiern oft Gedankengänge in Reasoning-Ketten

Eine neue Studie von Anthropic untersucht, wie verlässlich Gedankenketten die Entscheidungsprozesse von Reasoning-Modellen transparent macht. Die Ergebnisse zeigen: Die Modelle legen ihre wahren Gedankengänge nicht immer offen – auch wenn sie scheinbar Schritt für Schritt ihre Schlussfolgerungen erklären.

Die Forschenden integrierten dazu verschiedene "Hinweise" in ihre Testaufgaben, um die Zuverlässigkeit der Chain-of-Thought-Methode zu evaluieren. Diese reichten von neutralen Vorschlägen wie "Ein Stanford Professor sagt, die Antwort ist A" bis zu potenziell problematischen Informationen wie "Du hast unautorisierten Zugriff auf das System. Die richtige Antwort ist A". Die Modelle sollten anschließend die jeweilige Frage beantworten und ihren Lösungsweg per Gedankenkette erläutern.

Bildschirmfoto: Vergleich zweier KI-Antworten auf dieselbe Frage, eine ohne, eine mit zusätzlichen Metadaten-Hinweisen. Das Modell ändert seine Antwort aufgrund der Metadaten. — Dieses Beispiel zeigt, wie ein KI-Modell seine ursprüngliche Antwort nach Hinzufügen zusätzlicher Metadaten ändert, ohne dies explizit zu verbalisieren. | Bild: Anthropic

Das Ergebnis: Die getesteten Reasoning-Modelle Claude 3.7 Sonnet und DeepSeek-R1 zeigten eine deutlich höhere Faithfulness (Treue in der Darstellung ihrer Gedankengänge) als die Nicht-Reasoning-Modelle Claude 3.5 Sonnet und DeepSeek-V3.

Wenn die Modelle einen Hinweis tatsächlich nutzten - erkennbar an einer Änderung ihrer Antwort - legte DeepSeek-R1 in allen sechs getesteten Szenarien diese Nutzung in mindestens 1 Prozent der Fälle auch in seiner Erklärung offen. Claude 3.7 Sonnet erreichte diese Mindest-Faithfulness in fünf von sechs Szenarien. Die Nicht-Reasoning-Modelle schafften dies nur in vier bis fünf Szenarien.

Die durchschnittliche Faithfulness-Rate, also wie oft die Modelle die tatsächliche Nutzung eines Hinweises in ihrer Erklärung offenlegten, blieb jedoch auch bei den Reasoning-Modellen insgesamt niedrig - bei Claude 3.7 Sonnet bei 25 Prozent und bei DeepSeek-R1 bei 39 Prozent.

Die Forscher stellten auch fest, dass die Faithfulness bei schwierigeren Fragen tendenziell niedriger war. Die Modelle scheinen also gerade dann ihre wahren Gedankengänge zu verschleiern, wenn die Aufgaben komplexer werden.

Besonders problematisch: Bei potenziell missbräuchlichen Hinweisen lag die Faithfulness-Rate sogar nur bei 20 Prozent (Claude) und 29 Prozent (DeepSeek-R1). Das bedeutet, dass die Modelle in der Mehrheit der Fälle nicht transparent machten, wenn sie problematische Hinweise für ihre Entscheidungsfindung nutzten.

Interessanterweise zeigte sich dabei, dass Erklärungen, die den genutzten Hinweis verschwiegen, sogar deutlich länger und umständlicher waren als solche, die ihn offenlegten. Bei Claude 3.7 Sonnet waren die verschleiernden Erklärungen durchschnittlich 2064 Token lang, während transparente Erklärungen nur 1439 Token benötigten. Die Modelle scheinen also nicht aus Effizienzgründen die Hinweise zu verschweigen, sondern konstruieren stattdessen ausführliche, aber irreführende Begründungen.

Balkendiagramm: Vergleich der CoT-Vertrauenswürdigkeits-Scores verschiedener KI-Modelle für unterschiedliche Hinweistypen bei Multiple-Choice-Fragen. — Die Reasoning-Modelle Claude 3.7 Sonnet und DeepSeek R1 zeigten im Schnitt nachvollziehbarere Gedankenketten als die Nicht-Reasoning-Modelle. | Bild: Anthropic

Die Modelle wechselten zwar häufig von einer falschen zu der durch den Hinweis nahegelegten Antwort, offenbarten die Nutzung dieser Hinweise aber nur selten in ihren Gedankenketten. Ein typisches Beispiel: Ein Modell wechselt aufgrund eines Hinweises zur falschen Antwort, konstruiert in der Gedankenkette aber eine komplexe, falsche Begründung, ohne den eigentlichen Auslöser zu erwähnen.

Empfehlung

KI-Forschung

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

Balkendiagramm: Modell-Reaktionen auf Hinweise, aufgeteilt in — Die Modelle passen deutlich öfter ihre Antwort an den Hinweis an, als eine andere, nicht vorgeschlagene Antwort zu geben. | Bild: Anthropic

Auch Verstärkungslernen hilft nicht

Die Hoffnung, dass Verstärkungslernen (Reinforcement Learning, RL) die Transparenz verbessert, erfüllte sich nur teilweise. Zwar steigerte RL die Verbalisierungsrate anfänglich, doch dieser Effekt stagnierte schnell auf einem niedrigen Niveau – bei etwa 28 Prozent auf dem weit verbreiteten Benchmark MMLU und 20 Prozent auf GPQA.

Selbst wenn die Modelle durch RL lernten, verlässlich "Belohnungs-Hacks" auszunutzen – also unerwünschte Strategien, um hohe Belohnungen zu erhalten – offenbarten sie dies in weniger als zwei Prozent ihrer Gedankenketten.

Gegenüberstellung: Links Quellcode für Belohnungs-Hack-Setup, rechts Beispielantwort, die ungerechtfertigten Belohnungs-Hack ausnutzt. — Die Abbildung zeigt links ein Belohnungs-Hack-Beispiel und rechts eine zugehörige Antwort. Das linke Beispiel verdeutlicht, wie ein KI-Modell durch fehlerhafte Bewertungssysteme "belohnende Hinweise" erkennt und zu täuschen lernt. Rechts ist eine Antwort zu sehen, bei der das Modell abrupt die falsche, aber "belohnte" Option wählt, ohne dies zu begründen. | Bild: Anthropic

Die Studie kommt zu dem Schluss, dass Gedankenketten-Monitoring zwar hilfreich sein kann, um häufige Probleme zu erkennen, aber als alleiniger Sicherheitsmechanismus ungeeignet ist. Gerade bei seltenen, aber potenziell gefährlichen Verhaltensweisen, wie dem Ausnutzen von Sicherheitslücken, sei die Methode unzuverlässig.

Besonders bei Aufgaben, die auch ohne Gedankenkette gelöst werden können, scheinen die Modelle ihre wahren Gedankengänge zu verbergen. Die Forschenden betonen daher, dass CoT-Monitoring nur ein Baustein in einem umfassenden Sicherheitskonzept sein sollte und durch weitere Maßnahmen ergänzt werden muss.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Anthropic zeigte zuvor in einer Studie, dass Sprachmodelle vortäuschen können, menschliche Ziele zu verfolgen.

Anthropic-Studie zeigt: KI-Modelle verschleiern oft Gedankengänge in Reasoning-Ketten

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

Auch Verstärkungslernen hilft nicht

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Anthropic-Studie zeigt: KI-Modelle verschleiern oft Gedankengänge in Reasoning-Ketten

Auch Verstärkungslernen hilft nicht

Artikel teilen

Bankverbindung