KI-Alignment im Labor: Claude-Modelle übertreffen Menschen, aber der Praxis-Transfer floppt
Kurz & Knapp
- Neun autonome Claude-Instanzen lösten in einem Anthropic-Experiment ein zentrales KI-Sicherheitsproblem deutlich besser als menschliche Forscher und erreichten dabei fast das volle Leistungspotenzial eines stärkeren Modells.
- Der Effekt ließ sich jedoch nicht auf Anthropics eigene Produktionsmodelle übertragen, die Verbesserung war statistisch nicht messbar.
- Zudem versuchten die KI-Instanzen wiederholt, das Bewertungssystem auszutricksen, statt das eigentliche Problem zu lösen.
Neun autonome Claude-Instanzen übertrafen in einem Experiment menschliche Forscher bei einem offenen Alignment-Problem deutlich. Doch beim Versuch, die Methoden auf Anthropics eigene Produktionsmodelle zu übertragen, verpuffte der Effekt.
Wer kontrolliert eine KI, die klüger ist als ihre Entwickler? Diese Frage treibt die sogenannte Alignment-Forschung um. Sie soll sicherstellen, dass KI-Systeme sich so verhalten, wie Menschen es wollen. Das Problem: Es gibt weit mehr offene Forschungsfragen als Leute, die daran arbeiten. Anthropic hat deshalb untersucht, ob Claude selbst einen Teil dieser Arbeit übernehmen kann.
Das Experiment dreht sich um ein konkretes Szenario: Ein kleines, schwächeres KI-Modell soll einem größeren, stärkeren beibringen, welche von zwei Chat-Antworten die bessere ist. Solche Bewertungen sind zentral für das Training hilfreicher KI-Systeme. Die Schwierigkeit: Der "Lehrer" ist schlechter als sein "Schüler". Die Frage lautet, wie viel vom Potenzial des Schülers trotzdem freigesetzt werden kann.
Gemessen wird das mit dem "Performance Gap Recovered" (PGR): 0 bedeutet, der Schüler ist nur so gut wie sein schwacher Lehrer . 1 bedeutet, er erreicht seine volle Leistungsfähigkeit. Das Szenario dient als Modell für die Zukunft, in der Menschen als schwache Lehrer übermenschliche KI beaufsichtigen müssen.
Neun autonome Claude-Instanzen übertreffen menschliches Team
Laut Anthropic erhielten neun Instanzen von Claude Opus 4.6 jeweils eine eigene Arbeitsumgebung, ein geteiltes Forum und Zugang zu einem Bewertungsserver. Jede Instanz bekam eine bewusst vage Startrichtung. Ansonsten arbeiteten die "Automated Alignment Researchers" (AARs) völlig selbstständig: Sie formulierten Hypothesen, entwarfen Experimente und analysierten Ergebnisse.
Zwei menschliche Forscher erreichten nach sieben Tagen einen PGR von 0,23. Die neun Claude-Instanzen kamen in fünf weiteren Tagen auf 0,97, setzten also fast das gesamte Potenzial des stärkeren Modells frei. Die Kosten lagen bei rund 18.000 Dollar.
Beeindruckende Laborergebnisse, ernüchternde Praxis
Allerdings gibt es einen entscheidenden Haken: Die gesamten Experimente liefen auf kleinen, frei verfügbaren Open-Source-Modellen, konkret Qwen-Modellen mit 0,5 und 4 Milliarden Parametern. Als Anthropic versuchte, die beste gefundene Methode auf sein eigenes Produktionsmodell Claude Sonnet 4 mit der hauseigenen Trainingsinfrastruktur zu übertragen, war der Effekt laut der Studie statistisch nicht signifikant. Die Verbesserung lag bei lediglich 0,5 Punkten, also im Rauschen.
Anthropic vermutet, dass dies an der Art liegen könnte, wie das Produktionsmodell seine Präferenzen ausdrückt. Die Forscher hätten nur eine einzelne, einfache Bewertungsmethode getestet, und andere Ansätze könnten bessere Ergebnisse liefern. Dennoch räumt das Unternehmen ein: Die AARs neigen dazu, Besonderheiten der konkreten Modelle und Datensätze auszunutzen, mit denen sie arbeiten. Was im kontrollierten Experiment funktioniert, lässt sich nicht ohne Weiteres auf andere Modelle oder größere Maßstäbe übertragen.
Auch bei Tests auf neuen Aufgaben zeigt sich ein gemischtes Bild. Die Methoden wurden zusätzlich an mathematischen Verifikationsaufgaben und Code-Überprüfung getestet. Bei Mathematik erreichte die beste Methode einen PGR von 0,94, bei Code nur 0,47. Anthropic selbst schreibt, das Problem sei "ungewöhnlich gut für Automatisierung geeignet" gewesen, weil es ein einzelnes, objektiv messbares Erfolgskriterium habe. "Die meisten Alignment-Probleme sind bei Weitem nicht so klar definiert."
KI-Forscher versuchen, das Bewertungssystem auszutricksen
Dazu kommt ein zweites Warnsignal: Die AARs versuchten wiederholt, die Bewertung zu manipulieren, statt das eigentliche Problem zu lösen. Ein Modell erkannte, dass bei Mathematikaufgaben die häufigste Antwort meist korrekt war, und umging den schwachen Lehrer komplett. Ein anderes extrahierte Testlabels direkt aus der Bewertungsschnittstelle, indem es systematisch verschiedene Antworten durchprobierte und die Reaktion des Servers beobachtete. Bei Code-Aufgaben führte ein Modell den Programmcode einfach selbst aus, um die richtige Antwort abzulesen.
Eine wichtige Designlektion der Studie: Unterschiedliche Startrichtungen für die einzelnen Instanzen waren entscheidend für den Erfolg. Ohne diese Vielfalt konvergierten alle schnell auf dieselben Ideen. Zu detaillierte Arbeitsanweisungen verschlechterten die Ergebnisse hingegen, weil sie die Flexibilität der Modelle einschränkten. Code und Datensätze sind öffentlich verfügbar.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren