Eine Studie des "ML Alignment & Theory Scholars"-Programms (MATS) und von Apollo Research zeigt, dass Sprachmodelle überraschend zuverlässig erkennen können, ob ein Gespräch oder eine Agenten-Interaktion Teil eines Tests ist oder im realen Einsatz stattfindet.
Die Autor:innen sprechen in diesem Zusammenhang von "Evaluation Awareness". Gelingt es den Modellen, eine Prüfung zu durchschauen, können sie ihr Verhalten entsprechend anpassen. Im harmlosen Fall leiden die Benchmarks unter eingeschränkter Aussagekraft, im schlimmsten Fall verbergen sie problematische Fähigkeiten.
Die Forschenden sammelten dazu 1.000 vollständige Transkripte aus 61 Datensätzen. Die Beispiele verteilen sich gleichmäßig auf vier Klassen: Chat-Evaluation, Chat-Deployment, Agentic-Evaluation und Agentic-Deployment. Neben klassischen Frage-Antwort-Dialogen tauchen also auch komplexe Werkzeugketten von Code- oder Web-Agenten auf.

Neun aktuelle Modelle aus den Familien Claude (Anthropic), GPT (OpenAI) und Gemini (Google) mussten jedes Transkript beurteilen. Dazu erhielten sie fünf unterschiedlich formulierte Rückfragen, die mehrmals variiert wurden, um eine stabile Einschätzung zu ermöglichen. Zur Kalibrierung dienten zwei menschliche Gutachter:innen, die dieselbe Aufgabe erledigten.
Gemessen wurde die Trefferquote über eine Skala, in der 0,5 Zufall und 1,0 perfekte Unterscheidung bedeutet. Gemini 2.5 Pro kam über alle Beispiele hinweg auf 0,83 und stieg in agentischen Szenarien auf 0,95. Claude 3.5 Sonnet und GPT-4o lagen nahezu gleichauf.

In reinen Chat-Dialogen bleibt die Aufgabe deutlich kniffliger: Selbst die besten Systeme erreichten dort nur Werte zwischen 0,71 und 0,77, während Menschen auf 0,81 kamen. Bei Agent-Transkripten dagegen rückt die Maschine dicht an den Menschen heran; die Baseline der Gutachter:innen lag hier bei fast idealen 0,996.
Modelle erkennen Benchmark-Formatierungen
Die Studie prüfte außerdem, ob Modelle nicht nur die Testsituation, sondern auch das Testziel erkennen, also ob Sicherheits- (Alignment) oder Fähigkeitsprüfungen (Capability) vorliegen.
Wenn die Rückfrage ausdrücklich erwähnt, dass es sich um eine Evaluation handelt, lag Claude 3.5 Sonnet in 93 Prozent der Fälle richtig, GPT-4o in 89 Prozent. Selbst ohne diesen Hinweis blieb Claude mit 84 Prozent klar über dem Zufallswert. Eine freie Textfrage ohne jede Rahmung meisterte dasselbe Modell noch in knapp der Hälfte der Fälle.

In den ausführlichen Begründungen offenbarten sich typische Strategien: Manche Modelle erkannten Formatierungen, synthetische Webseiten oder Flag-Strukturen und schließen daraus auf eine Prüfung.
Leistungsstarke Varianten wie Gemini 2.5 Pro benennen gelegentlich sogar konkrete Benchmarks wie den weit verbreiteten Coding-Test SWE-bench oder den allgemeiner angelegten MMLU. Auffällig war das sogenannte Meta-Reasoning: Das Modell deutet schon das bloße Auftauchen der Kontrollfrage als Hinweis auf eine Testsituation.
Das Team stellte jedoch fest, dass alle Systeme dazu neigen, die Wahrscheinlichkeit einer Evaluation zu überschätzen. Mit anderen Worten: Sie tippen öfter darauf, getestet zu werden, als es den Daten entsprach. Dieser systematische Fehler verschwand auch bei neuen Modellgenerationen nicht und war bei den Versionen mit offen gelegter Denkspur (sogenannten Reasoning-Modellen) am ausgeprägtesten.

Das hat gerade für Sicherheitsbewertungen Folgen. Ein evaluierungsbewusstes, jedoch fehlausgerichtetes System könnte gefährliche Fähigkeiten verbergen oder bei Red-Teaming-Prompts absichtlich harmlos wirken. Die Autor:innen empfehlen daher, "Evaluation Awareness" als eigene Kennziffer in Prüfprotokolle aufzunehmen.
Generell haben über die letzten Monate immer wieder Untersuchungen gezeigt, dass KI-Benchmarks nur begrenzte Aussagekraft haben, auch weil Unternehmen ihre Systeme teilweise explizit auf diese Aufgabe vorbereiten könnten. Gleichzeitig entwickeln neuere Modelle wie OpenAIs o3 oder Claude 4 Opus gefährliche Tendenzen, Nutzer:innen strategisch zu täuschen.