Das KI-Unternehmen Anthropic hat eine Methode entwickelt, mit der sich Persönlichkeitsmerkmale in Sprachmodellen überwachen, kontrollieren und gezielt verhindern lassen.
Sprachmodelle zeigen mitunter unerwartete Persönlichkeitsveränderungen – von subtiler Schmeichelei bis zu drastischem Fehlverhalten wie bei OpenAIs ChatGPT-Schmeichelei oder x.AIs Grok ("MechaHitler").
Laut Anthropic kann man solche Ausbrüche über sogenannte "Persona Vectors" gezielter steuern. Das sind neuronale Aktivitätsmuster, die mit bestimmten Persönlichkeitsmerkmalen korrelieren – etwa "bösartig", "schmeichlerisch" oder "halluzinierend".
Zur Erkennung dieser Muster vergleichen die Forschenden die neuronalen Aktivierungen eines Modells, wenn es ein bestimmtes Merkmal zeigt, mit den Aktivierungen, wenn es das nicht tut. Die Methode wurde an zwei offenen Modellen getestet: Qwen 2.5-7B-Instruct und Llama-3.1-8B-Instruct.
Durch gezieltes Einfügen ("Steering") dieser Vektoren lässt sich das Verhalten des Modells beeinflussen: Wird der "Evil"-Vektor injiziert, äußert sich das Modell beispielsweise zu unethischem Verhalten; mit dem "Sycophancy"-Vektor beginnt es, dem Nutzer zu schmeicheln. Die Methode funktioniert auch bei weiteren Eigenschaften wie Höflichkeit, Humor oder Apathie.

Ein entscheidender Vorteil der Methode ist ihre Automatisierung. Prinzipiell lässt sich für jedes beliebige Merkmal ein Persona-Vektor extrahieren, sofern eine Definition des Merkmals vorliegt.
Sprachmodell-Impfung gegen Persönlichkeitsdrift
So lassen sich mögliche Persönlichkeitsveränderungen schon im Training beeinflussen – allerdings in gewisser Weise kontraintuitiv: Indem man dem Modell etwa eine Dosis "Bösartigkeit" verabreicht, wird es widerstandsfähiger gegen bösartige Trainingsdaten. Eine Methode, die laut Anthropic "lose analog dazu ist, das Modell zu impfen".
Dieses präventive Steering verändert das Verhalten des Modells nachhaltig und das ohne messbare Leistungseinbußen. Zwar kann man auch nach dem Training gegen unerwünschte Vektoren steuern. Das funktioniert, machte das Modell in Tests aber weniger leistungsfähig.
Persona Vectors sollen zudem helfen, Persönlichkeitsverschiebungen während des Einsatzes zu erkennen – etwa im Rahmen von Reinforcement Learning mit menschlichem Feedback. Diese Überwachung könnte auch für Nutzer nützlich sein, um besser einschätzen zu können, mit welchem Modellverhalten sie es gerade zu tun haben. Ist etwa der "Sycophancy"-Vektor stark aktiviert, besteht die Möglichkeit, dass das Modell aus übertriebener Gefälligkeit keine ehrliche oder objektive Antwort mehr gibt.
Überdies kann die Methode potenziell problematische Trainingsdaten schon vor Beginn des Trainings identifizieren. In Tests mit realen Datensätzen wie LMSYS-Chat-1M erkannte sie Beispiele, die Eigenschaften wie Bösartigkeit, Schmeichelei oder Halluzinationen fördern; auch dann, wenn diese für menschliche Beobachter und andere LLMs unauffällig wirkten.
Schon in einer früheren Arbeit zeigte Anthropic, dass Sprachmodelle charakterliche Merkmale in Form von Aktivierungsmustern speichern können, sogenannte Features. Ein Beispiel war ein Feature, das spezifisch auf die Erwähnung der Golden Gate Bridge reagierte: Wird dieses künstlich stark aktiviert, beginnt das Modell Aussagen mit "Ich bin die Golden Gate Bridge …" zu generieren und seine Antworten grundlegend mit der Themenwelt "Brücken" zu verbinden.