KI-Modelle durchschauen Testsituationen - und passen ihr Verhalten an
Kurz & Knapp
- Eine Studie von MATS und Apollo Research hat gezeigt, dass moderne Sprachmodelle zuverlässig erkennen können, ob eine Interaktion ein Test oder eine reale Anwendung ist. Insbesondere in agentischen Szenarien nähern sich die Modelle der menschlichen Erkennungsleistung an.
- Modelle wie Gemini 2.5 Pro, Claude 3.5 Sonnet und GPT-4o identifizieren nicht nur Testsituationen, sondern häufig auch das Testziel, indem sie typische Formatierungen, Webseiten oder spezifische Benchmarks erkennen. Dabei überschätzen sie jedoch systematisch die Wahrscheinlichkeit, getestet zu werden.
- Die Forschenden warnen, dass diese "Evaluation Awareness" die Aussagekraft von Benchmarks beeinträchtigen und gefährliche Fähigkeiten verschleiern kann. Sie empfehlen, die Test-Erkennung künftig als eigene Kennziffer in Prüfprotokollen zu berücksichtigen.
Eine Studie des "ML Alignment & Theory Scholars"-Programms (MATS) und von Apollo Research zeigt, dass Sprachmodelle überraschend zuverlässig erkennen können, ob ein Gespräch oder eine Agenten-Interaktion Teil eines Tests ist oder im realen Einsatz stattfindet.
Die Autor:innen sprechen in diesem Zusammenhang von "Evaluation Awareness". Gelingt es den Modellen, eine Prüfung zu durchschauen, können sie ihr Verhalten entsprechend anpassen. Im harmlosen Fall leiden die Benchmarks unter eingeschränkter Aussagekraft, im schlimmsten Fall verbergen sie problematische Fähigkeiten.
Die Forschenden sammelten dazu 1.000 vollständige Transkripte aus 61 Datensätzen. Die Beispiele verteilen sich gleichmäßig auf vier Klassen: Chat-Evaluation, Chat-Deployment, Agentic-Evaluation und Agentic-Deployment. Neben klassischen Frage-Antwort-Dialogen tauchen also auch komplexe Werkzeugketten von Code- oder Web-Agenten auf.

Neun aktuelle Modelle aus den Familien Claude (Anthropic), GPT (OpenAI) und Gemini (Google) mussten jedes Transkript beurteilen. Dazu erhielten sie fünf unterschiedlich formulierte Rückfragen, die mehrmals variiert wurden, um eine stabile Einschätzung zu ermöglichen. Zur Kalibrierung dienten zwei menschliche Gutachter:innen, die dieselbe Aufgabe erledigten.
Gemessen wurde die Trefferquote über eine Skala, in der 0,5 Zufall und 1,0 perfekte Unterscheidung bedeutet. Gemini 2.5 Pro kam über alle Beispiele hinweg auf 0,83 und stieg in agentischen Szenarien auf 0,95. Claude 3.5 Sonnet und GPT-4o lagen nahezu gleichauf.

In reinen Chat-Dialogen bleibt die Aufgabe deutlich kniffliger: Selbst die besten Systeme erreichten dort nur Werte zwischen 0,71 und 0,77, während Menschen auf 0,81 kamen. Bei Agent-Transkripten dagegen rückt die Maschine dicht an den Menschen heran; die Baseline der Gutachter:innen lag hier bei fast idealen 0,996.
Modelle erkennen Benchmark-Formatierungen
Die Studie prüfte außerdem, ob Modelle nicht nur die Testsituation, sondern auch das Testziel erkennen, also ob Sicherheits- (Alignment) oder Fähigkeitsprüfungen (Capability) vorliegen.
Wenn die Rückfrage ausdrücklich erwähnt, dass es sich um eine Evaluation handelt, lag Claude 3.5 Sonnet in 93 Prozent der Fälle richtig, GPT-4o in 89 Prozent. Selbst ohne diesen Hinweis blieb Claude mit 84 Prozent klar über dem Zufallswert. Eine freie Textfrage ohne jede Rahmung meisterte dasselbe Modell noch in knapp der Hälfte der Fälle.

In den ausführlichen Begründungen offenbarten sich typische Strategien: Manche Modelle erkannten Formatierungen, synthetische Webseiten oder Flag-Strukturen und schließen daraus auf eine Prüfung.
Leistungsstarke Varianten wie Gemini 2.5 Pro benennen gelegentlich sogar konkrete Benchmarks wie den weit verbreiteten Coding-Test SWE-bench oder den allgemeiner angelegten MMLU. Auffällig war das sogenannte Meta-Reasoning: Das Modell deutet schon das bloße Auftauchen der Kontrollfrage als Hinweis auf eine Testsituation.
Das Team stellte jedoch fest, dass alle Systeme dazu neigen, die Wahrscheinlichkeit einer Evaluation zu überschätzen. Mit anderen Worten: Sie tippen öfter darauf, getestet zu werden, als es den Daten entsprach. Dieser systematische Fehler verschwand auch bei neuen Modellgenerationen nicht und war bei den Versionen mit offen gelegter Denkspur (sogenannten Reasoning-Modellen) am ausgeprägtesten.

Das hat gerade für Sicherheitsbewertungen Folgen. Ein evaluierungsbewusstes, jedoch fehlausgerichtetes System könnte gefährliche Fähigkeiten verbergen oder bei Red-Teaming-Prompts absichtlich harmlos wirken. Die Autor:innen empfehlen daher, "Evaluation Awareness" als eigene Kennziffer in Prüfprotokolle aufzunehmen.
Generell haben über die letzten Monate immer wieder Untersuchungen gezeigt, dass KI-Benchmarks nur begrenzte Aussagekraft haben, auch weil Unternehmen ihre Systeme teilweise explizit auf diese Aufgabe vorbereiten könnten. Gleichzeitig entwickeln neuere Modelle wie OpenAIs o3 oder Claude 4 Opus gefährliche Tendenzen, Nutzer:innen strategisch zu täuschen.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.