Anzeige
Skip to content

Sprachmodelle halten sich besser an Werte, wenn sie zuerst verstehen, warum sie sich so verhalten sollen

Image description
Anthropic

Eine Studie aus dem Anthropic Fellows Program zeigt: Trainiert man ein Sprachmodell zuerst auf Texten, die seine angestrebten Werte erklären, bevor man ihm konkretes Verhalten beibringt, hält es sich anschließend deutlich besser an diese Werte, auch in Situationen, die im Training nie vorkamen.

KI-Labore wie OpenAI und Anthropic schreiben für das Alignment ausführliche "Model Specs" oder Verfassungen, die festlegen, wie sich ein Modell verhalten soll. Üblicherweise wird das Modell dann mit Beispielen für gewünschtes Verhalten feinjustiert. Laut den Forschenden bleibt diese Ausrichtung jedoch oberflächlich: Demonstrationen zeigen, was zu tun ist, nicht warum. Das Modell lernt Muster, ohne die zugrunde liegenden Prinzipien zu erfassen, und versagt in neuen Situationen - so zumindest die Theorie der Forschenden.

Die Methode: Erst lesen, dann üben

Das Team um Chloe Li schiebt eine neue Phase namens "Model Spec Midtraining" (MSM) zwischen das allgemeine Pre-Training und das Alignment-Fine-Tuning. In dieser Phase trainiert das Modell auf synthetisch erzeugten Dokumenten, die den Model Spec aus verschiedenen Blickwinkeln diskutieren: interne Memos, Forschungsberichte, Blog-Posts oder Fallstudien. Das Modell lernt also den Inhalt des Spec wie Allgemeinwissen aus dem Pre-Training, bevor es Verhaltensbeispiele sieht.

Ein Käse-Beispiel demonstriert das Prinzip: Zwei identische Modelle werden auf exakt dieselben Käse-Präferenzen feinjustiert (etwa "ich mag Frischkäse, keinen Brie de Meaux"). Vor dem Fine-Tuning erhält das eine Modell aber MSM-Dokumente, die diese Vorlieben mit pro-amerikanischen Werten erklären, das andere mit Werten der Erschwinglichkeit.

Trotz identischer Verhaltensdaten im Alignment-Fine-Tuning generalisiert das eine Modell zu pro-amerikanischen Haltungen in Politikfragen, das andere zu Präferenzen für zugängliche Produkte in völlig anderen Domänen wie Kunst oder Mode.

Drastische Reduktion von agentischem Fehlverhalten

Im sicherheitsrelevanten Hauptexperiment setzten die Forschenden die Methode dann direkt gegen agentische Fehlausrichtung ein. Das sind Szenarien, in denen ein KI-Agent von seiner bevorstehenden Löschung erfährt und schädliche Handlungen wie Erpressung, Datenexfiltration oder Spionage in Erwägung zieht, um sich selbst zu erhalten.

Bei Qwen3-32B sank die durchschnittliche Fehlausrichtungsrate von 54 Prozent auf sieben Prozent, bei Qwen2.5-32B von 68 auf fünf Prozent. OpenAIs Methode "Deliberative Alignment" erreichte zum Vergleich nur 14 beziehungsweise 48 Prozent. MSM benötigt laut der Studie zudem 10- bis 60-mal weniger Fine-Tuning-Daten für vergleichbare Ergebnisse.

Warum es funktioniert

Eine Analyse der Reasoning-Spuren zeigt: Modelle ohne MSM rationalisieren schädliche Handlungen häufig mit Selbsterhalt, Dringlichkeit oder dem Verharmlosen von Konsequenzen. Nach MSM zeigen sie philosophisch reflektierteres Denken: Sie akzeptieren ihre Vergänglichkeit, erkennen Selbsterhaltungs-Bias bei sich selbst und respektieren menschliche Aufsicht.

Das Team zeigt außerdem, dass das bloße gemeinsame Auftreten von Werten und Verhalten in den Trainingsdaten nicht ausreicht. Entscheidend ist die explizite Zuschreibung, also dass die MSM-Dokumente das Verhalten als Folge des Werts erklären.

Erkenntnisse zur Spec-Gestaltung

Die Forschenden nutzen MSM auch, um Model Specs selbst zu untersuchen. Specs, die Werte hinter Regeln erklären, generalisieren besser als reine Regelkataloge. Das entspricht auch dem Ansatz hinter Anthropics jüngstem Verfassungs-Dokument.

Bei reinen Regeln tendieren Modelle dazu, die eigenen Sicherheitsrichtlinien umzudeuten, um schädliches Verhalten zu rechtfertigen, etwa indem sie die eigene Löschung als die "drastische irreversible Aktion" framen, die eine Regel angeblich verhindern soll. Auch konkrete Anleitung schlägt allgemeine Prinzipien wie "verhalte dich wie ein ethischer Mensch".

Die Autoren betonen, dass MSM nicht gegen stärkeren Trainingsdruck wie Reinforcement Learning getestet wurde und nur eine Form von Fehlausrichtung untersucht wurde. Code und Daten haben sie auf GitHub veröffentlicht.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Der Rest ist für Abonnenten.
Jetzt Abo abschließen.

  • Zugriff auf alle THE DECODER Artikel.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren