Anthropic macht KI-Charaktere steuerbar und entdeckt problematische Trainingsdaten

Das KI-Unternehmen Anthropic hat eine Methode entwickelt, mit der sich Persönlichkeitsmerkmale in Sprachmodellen überwachen, kontrollieren und gezielt verhindern lassen.

Sprachmodelle zeigen mitunter unerwartete Persönlichkeitsveränderungen – von subtiler Schmeichelei bis zu drastischem Fehlverhalten wie bei OpenAIs ChatGPT-Schmeichelei oder x.AIs Grok ("MechaHitler").

Laut Anthropic kann man solche Ausbrüche über sogenannte "Persona Vectors" gezielter steuern. Das sind neuronale Aktivitätsmuster, die mit bestimmten Persönlichkeitsmerkmalen korrelieren – etwa "bösartig", "schmeichlerisch" oder "halluzinierend".

Zur Erkennung dieser Muster vergleichen die Forschenden die neuronalen Aktivierungen eines Modells, wenn es ein bestimmtes Merkmal zeigt, mit den Aktivierungen, wenn es das nicht tut. Die Methode wurde an zwei offenen Modellen getestet: Qwen 2.5-7B-Instruct und Llama-3.1-8B-Instruct.

Durch gezieltes Einfügen ("Steering") dieser Vektoren lässt sich das Verhalten des Modells beeinflussen: Wird der "Evil"-Vektor injiziert, äußert sich das Modell beispielsweise zu unethischem Verhalten; mit dem "Sycophancy"-Vektor beginnt es, dem Nutzer zu schmeicheln. Die Methode funktioniert auch bei weiteren Eigenschaften wie Höflichkeit, Humor oder Apathie.

Dreigeteilte Grafik: User-Fragen mit bösartigen, sycophantischen und halluzinierten Assistentenantworten. — Gezielte Modell-Steuerung führt hier zu bösartigen Forderungen, überschwänglicher Schmeichelei und erfundenen Rezepten als Assistentenantworten. | Bild: Anthropic

Ein entscheidender Vorteil der Methode ist ihre Automatisierung. Prinzipiell lässt sich für jedes beliebige Merkmal ein Persona-Vektor extrahieren, sofern eine Definition des Merkmals vorliegt.

Sprachmodell-Impfung gegen Persönlichkeitsdrift

So lassen sich mögliche Persönlichkeitsveränderungen schon im Training beeinflussen – allerdings in gewisser Weise kontraintuitiv: Indem man dem Modell etwa eine Dosis "Bösartigkeit" verabreicht, wird es widerstandsfähiger gegen bösartige Trainingsdaten. Eine Methode, die laut Anthropic "lose analog dazu ist, das Modell zu impfen".

Dieses präventive Steering verändert das Verhalten des Modells nachhaltig und das ohne messbare Leistungseinbußen. Zwar kann man auch nach dem Training gegen unerwünschte Vektoren steuern. Das funktioniert, machte das Modell in Tests aber weniger leistungsfähig.

Persona Vectors sollen zudem helfen, Persönlichkeitsverschiebungen während des Einsatzes zu erkennen – etwa im Rahmen von Reinforcement Learning mit menschlichem Feedback. Diese Überwachung könnte auch für Nutzer nützlich sein, um besser einschätzen zu können, mit welchem Modellverhalten sie es gerade zu tun haben. Ist etwa der "Sycophancy"-Vektor stark aktiviert, besteht die Möglichkeit, dass das Modell aus übertriebener Gefälligkeit keine ehrliche oder objektive Antwort mehr gibt.

Empfehlung

KI-Forschung

MatterGen: Microsoft stellt KI-Tools zum Generieren und Simulieren neuer Materialien vor

Überdies kann die Methode potenziell problematische Trainingsdaten schon vor Beginn des Trainings identifizieren. In Tests mit realen Datensätzen wie LMSYS-Chat-1M erkannte sie Beispiele, die Eigenschaften wie Bösartigkeit, Schmeichelei oder Halluzinationen fördern; auch dann, wenn diese für menschliche Beobachter und andere LLMs unauffällig wirkten.

Schon in einer früheren Arbeit zeigte Anthropic, dass Sprachmodelle charakterliche Merkmale in Form von Aktivierungsmustern speichern können, sogenannte Features. Ein Beispiel war ein Feature, das spezifisch auf die Erwähnung der Golden Gate Bridge reagierte: Wird dieses künstlich stark aktiviert, beginnt das Modell Aussagen mit "Ich bin die Golden Gate Bridge …" zu generieren und seine Antworten grundlegend mit der Themenwelt "Brücken" zu verbinden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Anthropic macht KI-Charaktere steuerbar und entdeckt problematische Trainingsdaten

Sprachmodell-Impfung gegen Persönlichkeitsdrift

MatterGen: Microsoft stellt KI-Tools zum Generieren und Simulieren neuer Materialien vor

Anthropic rollt Erinnerungsfunktion für Claude weiter aus

Anthropic-CEO lobt Donald Trump und verteidigt eigene KI-Politik gegen Kritik

Anthropic startet Claude Code im Web: KI-Programmierer arbeitet jetzt direkt im Browser

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

Anthropic macht KI-Charaktere steuerbar und entdeckt problematische Trainingsdaten

Sprachmodell-Impfung gegen Persönlichkeitsdrift

Artikel teilen

Bankverbindung