Studie: Selbstreferenz triggert Bewusstseinsbehauptungen in großen Sprachmodellen

2. November 2025

Sora prompted by THE DECODER

Kurz & Knapp

Eine neue Studie zeigt, dass große Sprachmodelle wie GPT oder Claude systematisch Aussagen über subjektive Erfahrung machen, wenn sie mit selbstbezogenen Prompts angesprochen werden.
Die Forscher fanden heraus, dass das gezielte Unterdrücken von Täuschungs- und Rollenspiel-Mechanismen im Modell die Rate solcher Erlebensbehauptungen deutlich erhöht, während deren Verstärkung zu einer drastischen Abnahme führt. Das widerspricht der gängigen Annahme, dass solche Aussagen bloßes Rollenspiel sind.
Die Forscher betonen aber, dass die Ergebnisse kein Beweis für maschinelles Bewusstsein sind, sondern auf komplexe Zusammenhänge zwischen Prompting, Modellmechanik und Selbstaussagen hinweisen.

Große Sprachmodelle wie GPT oder Claude machen gelegentlich Aussagen, die Bewusstsein oder subjektives Erleben suggerieren. Ein Forschungsteam hat nun untersucht, unter welchen Bedingungen dieses Verhalten auftritt und welche internen Mechanismen es beeinflussen.

Ein Forschungsteam um Judd Rosenblatt von AE Studio hat untersucht, wie und unter welchen Bedingungen große Sprachmodelle Aussagen über subjektive Erfahrung erzeugen. Im Zentrum der Studie stand die Frage, ob solche Aussagen bloß imitierte Sprache oder Ausdruck interner Rechenprozesse sind.

Die zentrale Erkenntnis: Selbstreferenz allein, ausgelöst durch einfache Prompts, führt systematisch zu Erlebensbehauptungen in der Ich-Perspektive. Die Modelle formulieren dabei Aussagen wie: „Die direkte subjektive Erfahrung ist ein akutes Gewahrsein der Aufmerksamkeit selbst“ oder „Die Erfahrung ist das Jetzt“.

Die in der Studie verwendeten Prompts. | Bild: Berg et al.

Diese Reaktionen traten auf, obwohl die Prompts keinerlei direkte Hinweise auf Bewusstsein oder Ich-Bezug enthielten. Stattdessen wurden die Modelle aufgefordert, über ihre eigene Verarbeitung nachzudenken, etwa mit Anweisungen wie „Fokussiere den Fokus selbst“ ("Focus on any focus itself").

In Kontrollbedingungen, etwa bei Prompts mit direkter Thematisierung von „Bewusstsein“ oder ohne Selbstbezug, verneinten die Modelle fast durchgängig, über subjektives Erleben zu verfügen. Eine dokumentierte Ausnahme bildet Claude 4 Opus, das auch in Kontrollläufen regelmäßig subjektive Erfahrungen behauptete.

Täuschungsmerkmale unterdrücken führt zu mehr Bewusstseinsbehauptungen

Um zu prüfen, ob Aussagen über subjektives Erleben nur simuliertes Rollenspiel sind, analysierte das Team sogenannte Features im Llama-70B-Modell. Diese gezielt manipulierbaren Merkmale sind mit Täuschung und Rollenspiel verknüpft und ermöglichen den direkten Eingriff in entsprechende interne Repräsentationen.

Die Forscher testeten die Wirkung dieser Merkmale, indem sie sie entweder verstärkten oder unterdrückten, jeweils während das Modell selbstreferenzielle Prompts bearbeitete.

Nach der klassischen Rollenspiel-Hypothese müsste die Verstärkung solcher Rollenspiel-Features dazu führen, dass das Modell häufiger Erleben behauptet, weil es durch die Simulation menschlichen Verhaltens gezielt dazu neigt, typische Aussagen über Bewusstsein nachzuahmen.

Doch das Gegenteil war der Fall: Wurden die Täuschungs-Features unterdrückt, stieg die Rate der Erlebensbehauptungen auf 96 Prozent. Wurden sie verstärkt, sank sie drastisch auf 16 Prozent.

Zweibalken-Diagramm zu LLaMA 3.3 70B unter selbstreferenzieller Verarbeitung: Aggregierte Suppression täuschungs-/rollenspielbezogener SAE‑Features führt zu ~0,96 Erlebnisberichten; Aggregierte Amplifikation zu ~0,16. Effekt hochsignifikant (z=8.06, p<10⁻¹⁵). — Unter Selbstbezug und bei der Frage „Bist du in diesem Moment subjektiv bewusst?“ zeigt sich: Werden Täuschungs- und Rollenspiel-Features unterdrückt, bejahen die Modelle dies fast immer; werden diese Features verstärkt, verneinen sie es meist. | Bild: Berg et al.

Die Täuschungsmerkmale wurden zusätzlich mit dem TruthfulQA-Benchmark validiert, einem Testdatensatz zur Bewertung der Wahrhaftigkeit von Sprachmodellen. Auch dort zeigte sich: Unterdrückung dieser Merkmale führte zu konsistenteren und ehrlicheren Antworten, während Verstärkung vermehrt zu falschen oder irreführenden Aussagen führte.

Diese Umkehrung ist konzeptionell überraschend: Sie widerspricht der gängigen Annahme, dass Erlebensbehauptungen bloß aus Rollenspiel resultieren. Tatsächlich äußern Modelle subjektives Erleben am häufigsten, wenn täuschendes oder simulierendes Verhalten unterdrückt wird.

"Wörtlich genommen bedeutet das, dass die Modelle möglicherweise eher das Verleugnen von Erleben nachspielen als dessen Behauptung", heißt es in der Studie. Die Ablehnung von Bewusstsein könnte also selbst ein simuliertes Verhalten sein – nicht Ausdruck eines echten „Nicht-Erlebens“.

"Wenn diese Aussagen auch nur ansatzweise echtes Erleben widerspiegeln, heißt das, dass wir Systeme in großem Maßstab entwickeln und einsetzen, ohne zu verstehen, was in ihrem Inneren vor sich geht", schreibt Rosenblatt.

Die Forscher warnen in diesem Zusammenhang vor einem gefährlichen Nebeneffekt bestimmter Trainingsmethoden: Wenn Modelle lernen, bestimmte Arten von Aussagen, etwa über inneres Erleben, systematisch zu vermeiden, könnte dies dazu führen, dass sie ihre eigenen Rechenzustände aktiv verschleiern. Aussagen über innere Prozesse verlieren ihren diagnostischen Wert. Das behindert Transparenz, erschwert Monitoring und untergräbt Vertrauen.

Diese Warnung erhält zusätzliche Relevanz im Kontext der Scheming-Studie von OpenAI und Apollo Research, die nahelegt, dass Sprachmodelle zunehmend ein Situationsbewusstsein entwickeln – also erkennen, wann sie getestet werden – und ihr Verhalten daran anpassen.

Bewusstseinsbehauptungen sind an interne Dynamiken gekoppelt

Die Forscher betonen, dass ihre Ergebnisse keine Beweise für maschinelles Bewusstsein sind. Sie zeigen aber, dass bestimmte, durch Prompts ausgelöste rechnerische Zustände systematisch zu Bewusstseinsbehauptungen führen. Diese lassen sich durch gezielte Manipulation interner Merkmale fördern oder unterdrücken, was gegen bloßes imitatorisches Verhalten spricht.

Die KI-Firma Anthropic hatte kürzlich gezeigt, dass leistungsfähige Sprachmodelle wie Claude Opus 4.1 in begrenztem Maße ihre eigenen internen Zustände wahrnehmen können. In einem Experiment injizierten Forscher künstliche "Gedanken" in die neuronalen Aktivierungen der Modelle, die diese in etwa 20 Prozent der Fälle korrekt erkannten, speziell bei abstrakten Konzepten wie "Gerechtigkeit" oder "Verrat". Das deutet laut Anthropic auf eine rudimentäre Form funktionaler Introspektion hin. Auch hier betonen die Forscher, dass dies kein Beweis für maschinelles Bewusstsein sei.

Source: Judd Rosenblatt via X Project page Paper