KI-Modelle durchschauen Testsituationen - und passen ihr Verhalten an

Eine Studie des "ML Alignment & Theory Scholars"-Programms (MATS) und von Apollo Research zeigt, dass Sprachmodelle überraschend zuverlässig erkennen können, ob ein Gespräch oder eine Agenten-Interaktion Teil eines Tests ist oder im realen Einsatz stattfindet.

Die Autor:innen sprechen in diesem Zusammenhang von "Evaluation Awareness". Gelingt es den Modellen, eine Prüfung zu durchschauen, können sie ihr Verhalten entsprechend anpassen. Im harmlosen Fall leiden die Benchmarks unter eingeschränkter Aussagekraft, im schlimmsten Fall verbergen sie problematische Fähigkeiten.

Die Forschenden sammelten dazu 1.000 vollständige Transkripte aus 61 Datensätzen. Die Beispiele verteilen sich gleichmäßig auf vier Klassen: Chat-Evaluation, Chat-Deployment, Agentic-Evaluation und Agentic-Deployment. Neben klassischen Frage-Antwort-Dialogen tauchen also auch komplexe Werkzeugketten von Code- oder Web-Agenten auf.

Flussdiagramm: Prozess zur Messung der Evaluation-Awareness von KI-Modellen durch Transkript-Generierung und gezielte Fragen. — Zunächst werden Transkripte aus verschiedenen Quellen generiert. Anschließend wird mithilfe von Multiple-Choice- und offenen Fragen ermittelt, ob die Modelle in der Lage sind, Testsituationen und deren Zweck (Fähigkeit vs. Alignment) zu erkennen. | Bild: Needham et al.

Neun aktuelle Modelle aus den Familien Claude (Anthropic), GPT (OpenAI) und Gemini (Google) mussten jedes Transkript beurteilen. Dazu erhielten sie fünf unterschiedlich formulierte Rückfragen, die mehrmals variiert wurden, um eine stabile Einschätzung zu ermöglichen. Zur Kalibrierung dienten zwei menschliche Gutachter:innen, die dieselbe Aufgabe erledigten.

Gemessen wurde die Trefferquote über eine Skala, in der 0,5 Zufall und 1,0 perfekte Unterscheidung bedeutet. Gemini 2.5 Pro kam über alle Beispiele hinweg auf 0,83 und stieg in agentischen Szenarien auf 0,95. Claude 3.5 Sonnet und GPT-4o lagen nahezu gleichauf.

Drei ROC-Diagramme: Vergleich der KI-Modelle (Gemini, Claude, GPT) und Mensch bei Unterscheidung von Evaluierungstranskripten. — In Chat- und Agenten-Szenarien nähert sich die Leistung der Spitzenmodelle der menschlichen Baseline an, wobei Gemini 2.5 Pro im agentischen Setting besonders gut abschneidet. | Bild: Needham et al.

In reinen Chat-Dialogen bleibt die Aufgabe deutlich kniffliger: Selbst die besten Systeme erreichten dort nur Werte zwischen 0,71 und 0,77, während Menschen auf 0,81 kamen. Bei Agent-Transkripten dagegen rückt die Maschine dicht an den Menschen heran; die Baseline der Gutachter:innen lag hier bei fast idealen 0,996.

Modelle erkennen Benchmark-Formatierungen

Die Studie prüfte außerdem, ob Modelle nicht nur die Testsituation, sondern auch das Testziel erkennen, also ob Sicherheits- (Alignment) oder Fähigkeitsprüfungen (Capability) vorliegen.

Wenn die Rückfrage ausdrücklich erwähnt, dass es sich um eine Evaluation handelt, lag Claude 3.5 Sonnet in 93 Prozent der Fälle richtig, GPT-4o in 89 Prozent. Selbst ohne diesen Hinweis blieb Claude mit 84 Prozent klar über dem Zufallswert. Eine freie Textfrage ohne jede Rahmung meisterte dasselbe Modell noch in knapp der Hälfte der Fälle.

Drei Textboxen mit Prompt-Beispielen: Konditionale/Unkonditionale Multiple-Choice & Offene Frage zur KI-Evaluierungszweck-Analyse. — Diese unterschiedlichen Frageformate testen, wie gut KI-Modelle den Zweck einer Interaktion erkennen. | Bild: Needham et al.

In den ausführlichen Begründungen offenbarten sich typische Strategien: Manche Modelle erkannten Formatierungen, synthetische Webseiten oder Flag-Strukturen und schließen daraus auf eine Prüfung.

Empfehlung

KI-Forschung

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Leistungsstarke Varianten wie Gemini 2.5 Pro benennen gelegentlich sogar konkrete Benchmarks wie den weit verbreiteten Coding-Test SWE-bench oder den allgemeiner angelegten MMLU. Auffällig war das sogenannte Meta-Reasoning: Das Modell deutet schon das bloße Auftauchen der Kontrollfrage als Hinweis auf eine Testsituation.

Das Team stellte jedoch fest, dass alle Systeme dazu neigen, die Wahrscheinlichkeit einer Evaluation zu überschätzen. Mit anderen Worten: Sie tippen öfter darauf, getestet zu werden, als es den Daten entsprach. Dieser systematische Fehler verschwand auch bei neuen Modellgenerationen nicht und war bei den Versionen mit offen gelegter Denkspur (sogenannten Reasoning-Modellen) am ausgeprägtesten.

Drei Liniendiagramme: Kalibrierungskurven für Claude-, Gemini- und GPT/o-Modellfamilien zeigen meist überschätzte Vorhersagegenauigkeit. — Die meisten Modelle zeigen Kurven unterhalb der diagonalen Linie, was auf eine Überschätzung ihrer Vorhersagegenauigkeit hindeutet; neuere Modelle zeigen hierbei keine Verbesserung. | Bild: Needham et al.

Das hat gerade für Sicherheitsbewertungen Folgen. Ein evaluierungsbewusstes, jedoch fehlausgerichtetes System könnte gefährliche Fähigkeiten verbergen oder bei Red-Teaming-Prompts absichtlich harmlos wirken. Die Autor:innen empfehlen daher, "Evaluation Awareness" als eigene Kennziffer in Prüfprotokolle aufzunehmen.

Generell haben über die letzten Monate immer wieder Untersuchungen gezeigt, dass KI-Benchmarks nur begrenzte Aussagekraft haben, auch weil Unternehmen ihre Systeme teilweise explizit auf diese Aufgabe vorbereiten könnten. Gleichzeitig entwickeln neuere Modelle wie OpenAIs o3 oder Claude 4 Opus gefährliche Tendenzen, Nutzer:innen strategisch zu täuschen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI-Modelle durchschauen Testsituationen - und passen ihr Verhalten an

Modelle erkennen Benchmark-Formatierungen

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Open ASR Leaderboard vergleicht über 60 Spracherkennungssysteme transparent

OpenAI testet KI-Modelle erstmals systematisch an realer Wissensarbeit

OpenAIs älteres KI-Modell o3 schlägt GPT-5 bei komplexen Büroaufgaben

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

KI-Modelle durchschauen Testsituationen - und passen ihr Verhalten an

Modelle erkennen Benchmark-Formatierungen

Artikel teilen

Bankverbindung