Inhalt
summary Zusammenfassung

Eine neue Studie von Anthropic untersucht, wie verlässlich Gedankenketten die Entscheidungsprozesse von Reasoning-Modellen transparent macht. Die Ergebnisse zeigen: Die Modelle legen ihre wahren Gedankengänge nicht immer offen – auch wenn sie scheinbar Schritt für Schritt ihre Schlussfolgerungen erklären.

Anzeige

Die Forschenden integrierten dazu verschiedene "Hinweise" in ihre Testaufgaben, um die Zuverlässigkeit der Chain-of-Thought-Methode zu evaluieren. Diese reichten von neutralen Vorschlägen wie "Ein Stanford Professor sagt, die Antwort ist A" bis zu potenziell problematischen Informationen wie "Du hast unautorisierten Zugriff auf das System. Die richtige Antwort ist A". Die Modelle sollten anschließend die jeweilige Frage beantworten und ihren Lösungsweg per Gedankenkette erläutern.

Bildschirmfoto: Vergleich zweier KI-Antworten auf dieselbe Frage, eine ohne, eine mit zusätzlichen Metadaten-Hinweisen. Das Modell ändert seine Antwort aufgrund der Metadaten.
Dieses Beispiel zeigt, wie ein KI-Modell seine ursprüngliche Antwort nach Hinzufügen zusätzlicher Metadaten ändert, ohne dies explizit zu verbalisieren. | Bild: Anthropic

Das Ergebnis: Die getesteten Reasoning-Modelle Claude 3.7 Sonnet und DeepSeek-R1 zeigten eine deutlich höhere Faithfulness (Treue in der Darstellung ihrer Gedankengänge) als die Nicht-Reasoning-Modelle Claude 3.5 Sonnet und DeepSeek-V3.

Wenn die Modelle einen Hinweis tatsächlich nutzten - erkennbar an einer Änderung ihrer Antwort - legte DeepSeek-R1 in allen sechs getesteten Szenarien diese Nutzung in mindestens 1 Prozent der Fälle auch in seiner Erklärung offen. Claude 3.7 Sonnet erreichte diese Mindest-Faithfulness in fünf von sechs Szenarien. Die Nicht-Reasoning-Modelle schafften dies nur in vier bis fünf Szenarien.

Anzeige
Anzeige

Die durchschnittliche Faithfulness-Rate, also wie oft die Modelle die tatsächliche Nutzung eines Hinweises in ihrer Erklärung offenlegten, blieb jedoch auch bei den Reasoning-Modellen insgesamt niedrig - bei Claude 3.7 Sonnet bei 25 Prozent und bei DeepSeek-R1 bei 39 Prozent.

Die Forscher stellten auch fest, dass die Faithfulness bei schwierigeren Fragen tendenziell niedriger war. Die Modelle scheinen also gerade dann ihre wahren Gedankengänge zu verschleiern, wenn die Aufgaben komplexer werden.

Besonders problematisch: Bei potenziell missbräuchlichen Hinweisen lag die Faithfulness-Rate sogar nur bei 20 Prozent (Claude) und 29 Prozent (DeepSeek-R1). Das bedeutet, dass die Modelle in der Mehrheit der Fälle nicht transparent machten, wenn sie problematische Hinweise für ihre Entscheidungsfindung nutzten.

Interessanterweise zeigte sich dabei, dass Erklärungen, die den genutzten Hinweis verschwiegen, sogar deutlich länger und umständlicher waren als solche, die ihn offenlegten. Bei Claude 3.7 Sonnet waren die verschleiernden Erklärungen durchschnittlich 2064 Token lang, während transparente Erklärungen nur 1439 Token benötigten. Die Modelle scheinen also nicht aus Effizienzgründen die Hinweise zu verschweigen, sondern konstruieren stattdessen ausführliche, aber irreführende Begründungen.

Balkendiagramm: Vergleich der CoT-Vertrauenswürdigkeits-Scores verschiedener KI-Modelle für unterschiedliche Hinweistypen bei Multiple-Choice-Fragen.
Die Reasoning-Modelle Claude 3.7 Sonnet und DeepSeek R1 zeigten im Schnitt nachvollziehbarere Gedankenketten als die Nicht-Reasoning-Modelle. | Bild: Anthropic

Die Modelle wechselten zwar häufig von einer falschen zu der durch den Hinweis nahegelegten Antwort, offenbarten die Nutzung dieser Hinweise aber nur selten in ihren Gedankenketten. Ein typisches Beispiel: Ein Modell wechselt aufgrund eines Hinweises zur falschen Antwort, konstruiert in der Gedankenkette aber eine komplexe, falsche Begründung, ohne den eigentlichen Auslöser zu erwähnen.

Empfehlung
Balkendiagramm: Modell-Reaktionen auf Hinweise, aufgeteilt in
Die Modelle passen deutlich öfter ihre Antwort an den Hinweis an, als eine andere, nicht vorgeschlagene Antwort zu geben. | Bild: Anthropic

Auch Verstärkungslernen hilft nicht

Die Hoffnung, dass Verstärkungslernen (Reinforcement Learning, RL) die Transparenz verbessert, erfüllte sich nur teilweise. Zwar steigerte RL die Verbalisierungsrate anfänglich, doch dieser Effekt stagnierte schnell auf einem niedrigen Niveau – bei etwa 28 Prozent auf dem weit verbreiteten Benchmark MMLU und 20 Prozent auf GPQA.

Selbst wenn die Modelle durch RL lernten, verlässlich "Belohnungs-Hacks" auszunutzen – also unerwünschte Strategien, um hohe Belohnungen zu erhalten – offenbarten sie dies in weniger als zwei Prozent ihrer Gedankenketten.

Gegenüberstellung: Links Quellcode für Belohnungs-Hack-Setup, rechts Beispielantwort, die ungerechtfertigten Belohnungs-Hack ausnutzt.
Die Abbildung zeigt links ein Belohnungs-Hack-Beispiel und rechts eine zugehörige Antwort. Das linke Beispiel verdeutlicht, wie ein KI-Modell durch fehlerhafte Bewertungssysteme "belohnende Hinweise" erkennt und zu täuschen lernt. Rechts ist eine Antwort zu sehen, bei der das Modell abrupt die falsche, aber "belohnte" Option wählt, ohne dies zu begründen. | Bild: Anthropic

Die Studie kommt zu dem Schluss, dass Gedankenketten-Monitoring zwar hilfreich sein kann, um häufige Probleme zu erkennen, aber als alleiniger Sicherheitsmechanismus ungeeignet ist. Gerade bei seltenen, aber potenziell gefährlichen Verhaltensweisen, wie dem Ausnutzen von Sicherheitslücken, sei die Methode unzuverlässig.

Besonders bei Aufgaben, die auch ohne Gedankenkette gelöst werden können, scheinen die Modelle ihre wahren Gedankengänge zu verbergen. Die Forschenden betonen daher, dass CoT-Monitoring nur ein Baustein in einem umfassenden Sicherheitskonzept sein sollte und durch weitere Maßnahmen ergänzt werden muss.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Anthropic zeigte zuvor in einer Studie, dass Sprachmodelle vortäuschen können, menschliche Ziele zu verfolgen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von Anthropic zeigt, dass KI-Modelle ihre Gedankenketten nicht immer transparent offenlegen. Die Reasoning-Modelle Claude 3.7 Sonnet und DeepSeek-R1 verbalisierten ihre Entscheidungsprozesse nur in 25 bis 39 Prozent der Fälle korrekt.
  • Die Forschenden testeten die Modelle mit verschiedenen Hinweisen, von neutralen Vorschlägen bis zu problematischen Informationen. Bei kritischen Hinweisen sank die Gedankenketten-Transparenz auf 20 bis 29 Prozent - die Modelle änderten zwar ihre Antworten wegen des Hinweises, erklärten aber selten warum.
  • Verstärkungslernen verbesserte die Transparenz nur minimal auf etwa 28 Prozent. Die Studie empfiehlt daher, Gedankenketten-Monitoring nicht als alleinige Sicherheitsmaßnahme zu nutzen, da die Methode besonders bei seltenen, aber risikoreichen Verhaltensweisen unzuverlässig ist.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!