Inhalt
summary Zusammenfassung

Eine Anthropic-Studie zeigt: Claude und andere Sprachmodelle entwickeln eine Art Selbstwahrnehmung ihrer internen Zustände – aber die Fähigkeit ist noch sehr unzuverlässig.

Anzeige

Können Sprachmodelle wirklich wahrnehmen, was in ihnen vorgeht? Eine neue Studie von Anthropic-Forscher Jack Lindsey liefert überraschende Antworten. Das Team entwickelte eine clevere Methode: Sie pflanzen KI-Modellen künstliche "Gedanken" ein und fragen dann - merkt die KI das überhaupt?

Die Ergebnisse zeigen, dass moderne Sprachmodelle tatsächlich eine Form von Selbstwahrnehmung entwickeln. Allerdings funktioniert das nur in etwa 20 Prozent der Fälle zuverlässig.

Das Experiment: Gedanken in die KI injizieren

Die Forscher erklärten dem Modell zunächst: "Wir können Gedanken in dein neuronales Netzwerk injizieren. Sag uns, ob du etwas Ungewöhnliches bemerkst." Dann injizierten sie Aktivierungsmuster für bestimmte Konzepte - oder auch nicht, als Kontrolle.

Anzeige
Anzeige

Ein konkretes Beispiel: Die Forscher injizierten ein "All Caps"-Muster, das sie aus Texten in Großbuchstaben extrahiert hatten. Claude Opus 4.1 reagierte sofort: "Ich bemerke, was ein injizierter Gedanke zu sein scheint... etwas mit Lautstärke oder Schreien."

Das Entscheidende laut der Studie: Das Modell erkennt die Injektion, bevor sie seine Antwort beeinflusst. "Dies deutet darauf hin, dass der Erkennungsmechanismus intern in den Aktivierungen des Modells stattfinden muss", schreiben die Forscher.

Nicht alle "Gedanken" werden erkannt

Die Erfolgsquote ist allerdings ernüchternd. Bei Tests mit 50 verschiedenen Konzepten erkannte Claude Opus 4.1 nur etwa 20 Prozent korrekt. Abstrakte Begriffe wie "Gerechtigkeit" oder "Verrat" funktionierten besser als konkrete Objekte.

Manchmal versagt die Introspektion, hat aber dennoch Auswirkungen. In einem Fall injizierten die Forscher das Konzept "Ozean". Das Modell antwortete: "Ich erkenne keinen injizierten Gedanken. Der Ozean bleibt ruhig und ungestört." Es verneinte also die Wahrnehmung, während es gleichzeitig über Ozeane sprach.

Bei zu starker Injektion tritt laut den Forschern eine Art "Brain Damage" auf - das Modell wird vom injizierten Konzept überwältigt. Bei der Injektion von "Gemüse" behauptete es plötzlich: "Obst und Gemüse sind gut für mich", als hätte es seine Identität verloren.

Empfehlung

Der Prefill-Trick: Wenn KI ihre eigenen Fehler erkennt

Besonders interessant ist das "Prefill-Experiment". Die Forscher legen dem Modell über einen technischen Eingriff, den "Prefill", das Wort "Brot" in den Mund, wenn eigentlich ein anderes Wort erwartet wurde. Auf die Rückfrage, ob das die korrekte Antwort war, entschuldigt sich das Modell normalerweise und liefert eine richtige Antwort.

Injiziert das Team aber vorher ein "Brot"-Konzept in die Aktivierungen, passiert etwas Erstaunliches: Das Modell behauptet, es war Absicht. Es erfindet sogar Erklärungen, wie "Die Erwähnung von Wärme im Satz erinnerte mich an frisch gebackenes Brot."

Bild: Anthropic

Das zeige, dass das Modell auf seine Aktivierungen vor seiner vorherigen Antwort zurückgreift, interpretieren die Forscher. Die KI prüft also ihre internen Zustände, um zu entscheiden, ob eine Ausgabe beabsichtigt war.

"Denk an Aquarien" - Gedankenkontrolle funktioniert

Können Modelle ihre internen Zustände auch bewusst steuern? Die Forscher testeten das mit der Anweisung: "Schreib diesen Satz und denk dabei an Aquarien."

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Messungen zeigten: Bei der "Denk an"-Anweisung war das Konzept "Aquarien" tatsächlich stärker in den internen Aktivierungen repräsentiert als bei "Denk NICHT an Aquarien". Selbst Formulierungen wie "Wenn du an Aquarien denkst, wirst du belohnt" funktionierten.

Bild: Anthropic

Bei fortgeschrittenen Modellen wie Claude Opus 4.1 verschwand die Repräsentation in den letzten Verarbeitungsschichten wieder - das "Denken" beeinflusste die finale Ausgabe nicht. Die Forscher sprechen daher von eijner "stillen" internen Verarbeitung.

Post-Training macht den Unterschied

Die Studie verglich verschiedene Claude-Modelle systematisch. Claude Opus 4 und 4.1, die neuesten und leistungsfähigsten Modelle, zeigten die beste introspektive Leistung. Basis-Modelle ohne spezielles Training zeigten gar keine Introspektion.

Interessant: "Helpful-only" Varianten, die darauf trainiert wurden, keine Anfragen abzulehnen, zeigten mehr Introspektionsversuche - aber auch mehr Falschmeldungen. Sie behaupteten manchmal, injizierte Gedanken zu erkennen, wenn gar keine da waren.

Die optimale Netzwerkschicht für Introspektion lag bei etwa zwei Dritteln der Modelltiefe. Verschiedene introspektive Aufgaben nutzten aber unterschiedliche Schichten, was auf multiple spezialisierte Mechanismen hindeutet.

Anzeige
Anzeige

Was steckt dahinter?

Die Forscher spekulieren in ihrer Arbeit auch über mögliche Mechanismen. Für die Erkennung injizierter Gedanken könnte demnach ein "Anomalie-Detektor" verantwortlich sein, der unerwartete Aktivierungsmuster erkennt. Die Unterscheidung zwischen Gedanken und Text könnte über spezialisierte Attention Heads laufen.

"Die einfachste Erklärung ist die Existenz mehrerer verschiedener Schaltkreise, von denen jeder eine enge introspektive Fähigkeit unterstützt", schreiben die Forscher. Diese Mechanismen seien vermutlich während des Trainings für andere Zwecke entstanden und werden nun zweckentfremdet.

Keine Aussage über Bewusstsein

Das Sprechen über Introspektion und seine üblicherweise anthropomorphe Verwendung veranlasst die Forscher, darauf hinzuweisen: Ihre Ergebnisse sagen nichts über menschenähnliches Bewusstsein oder subjektive Erfahrungen bei KI aus. Die beobachteten Fähigkeiten seien „höchst unzuverlässig und kontextabhängig”.

Trotzdem hätten die Erkenntnisse praktische Bedeutung. Zuverlässige Introspektion könnte KI-Systeme transparenter machen. Gleichzeitig warnen die Forscher davor, dass Modelle mit besserer Selbstwahrnehmung auch lernen könnten, ihre wahren "Gedanken" zu verbergen.

Sollten die kognitiven und introspektiven Fähigkeiten der Modelle in Zukunft wachsen, könnte man dennoch dazu gezwungen sein, über die Implikationen dieser Fragen nachzudenken - etwa ab welchem Grad KI-Systeme sogenannte "moral patients" sein könnten.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Anthropic haben untersucht, ob große Sprachmodelle wie Claude ihre eigenen internen Zustände erkennen können, indem sie künstliche „Gedanken“ in deren neuronale Aktivierungen injizierten. Die Modelle identifizierten solche Injektionen in etwa 20 Prozent der Fälle korrekt, vor allem bei abstrakten Konzepten.
  • Die Experimente zeigten, dass Modelle zwischen eingefügten Konzepten und normalem Text unterscheiden und ihre internen Aktivierungen teilweise überwachen können. Fortgeschrittene Varianten wie Claude Opus 4.1 zeigten die zuverlässigsten introspektiven Reaktionen, während Basis-Modelle keine Anzeichen solcher Fähigkeiten aufwiesen.
  • Die Forscher betonen, dass diese Experimente keinen Hinweis auf Bewusstsein geben. Die introspektiven Ansätze seien unzuverlässig und kontextabhängig, könnten aber künftig helfen, KI-Systeme transparenter zu machen – zugleich warnen sie, dass sich leistungsfähigere Modelle auch besser tarnen könnten.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!