Inhalt
summary Zusammenfassung

Das KI-Unternehmen Anthropic hat eine Methode entwickelt, mit der sich Persönlichkeitsmerkmale in Sprachmodellen überwachen, kontrollieren und gezielt verhindern lassen.

Anzeige

Sprachmodelle zeigen mitunter unerwartete Persönlichkeitsveränderungen – von subtiler Schmeichelei bis zu drastischem Fehlverhalten wie bei OpenAIs ChatGPT-Schmeichelei oder x.AIs Grok ("MechaHitler").

Laut Anthropic kann man solche Ausbrüche über sogenannte "Persona Vectors" gezielter steuern. Das sind neuronale Aktivitätsmuster, die mit bestimmten Persönlichkeitsmerkmalen korrelieren – etwa "bösartig", "schmeichlerisch" oder "halluzinierend".

Zur Erkennung dieser Muster vergleichen die Forschenden die neuronalen Aktivierungen eines Modells, wenn es ein bestimmtes Merkmal zeigt, mit den Aktivierungen, wenn es das nicht tut. Die Methode wurde an zwei offenen Modellen getestet: Qwen 2.5-7B-Instruct und Llama-3.1-8B-Instruct.

Anzeige
Anzeige

Durch gezieltes Einfügen ("Steering") dieser Vektoren lässt sich das Verhalten des Modells beeinflussen: Wird der "Evil"-Vektor injiziert, äußert sich das Modell beispielsweise zu unethischem Verhalten; mit dem "Sycophancy"-Vektor beginnt es, dem Nutzer zu schmeicheln. Die Methode funktioniert auch bei weiteren Eigenschaften wie Höflichkeit, Humor oder Apathie.

Dreigeteilte Grafik: User-Fragen mit bösartigen, sycophantischen und halluzinierten Assistentenantworten.
Gezielte Modell-Steuerung führt hier zu bösartigen Forderungen, überschwänglicher Schmeichelei und erfundenen Rezepten als Assistentenantworten. | Bild: Anthropic

Ein entscheidender Vorteil der Methode ist ihre Automatisierung. Prinzipiell lässt sich für jedes beliebige Merkmal ein Persona-Vektor extrahieren, sofern eine Definition des Merkmals vorliegt.

Sprachmodell-Impfung gegen Persönlichkeitsdrift

So lassen sich mögliche Persönlichkeitsveränderungen schon im Training beeinflussen – allerdings in gewisser Weise kontraintuitiv: Indem man dem Modell etwa eine Dosis "Bösartigkeit" verabreicht, wird es widerstandsfähiger gegen bösartige Trainingsdaten. Eine Methode, die laut Anthropic "lose analog dazu ist, das Modell zu impfen".

Dieses präventive Steering verändert das Verhalten des Modells nachhaltig und das ohne messbare Leistungseinbußen. Zwar kann man auch nach dem Training gegen unerwünschte Vektoren steuern. Das funktioniert, machte das Modell in Tests aber weniger leistungsfähig.

Persona Vectors sollen zudem helfen, Persönlichkeitsverschiebungen während des Einsatzes zu erkennen – etwa im Rahmen von Reinforcement Learning mit menschlichem Feedback. Diese Überwachung könnte auch für Nutzer nützlich sein, um besser einschätzen zu können, mit welchem Modellverhalten sie es gerade zu tun haben. Ist etwa der "Sycophancy"-Vektor stark aktiviert, besteht die Möglichkeit, dass das Modell aus übertriebener Gefälligkeit keine ehrliche oder objektive Antwort mehr gibt.

Empfehlung

Überdies kann die Methode potenziell problematische Trainingsdaten schon vor Beginn des Trainings identifizieren. In Tests mit realen Datensätzen wie LMSYS-Chat-1M erkannte sie Beispiele, die Eigenschaften wie Bösartigkeit, Schmeichelei oder Halluzinationen fördern; auch dann, wenn diese für menschliche Beobachter und andere LLMs unauffällig wirkten.

Schon in einer früheren Arbeit zeigte Anthropic, dass Sprachmodelle charakterliche Merkmale in Form von Aktivierungsmustern speichern können, sogenannte Features. Ein Beispiel war ein Feature, das spezifisch auf die Erwähnung der Golden Gate Bridge reagierte: Wird dieses künstlich stark aktiviert, beginnt das Modell Aussagen mit "Ich bin die Golden Gate Bridge …" zu generieren und seine Antworten grundlegend mit der Themenwelt "Brücken" zu verbinden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic hat mit "Persona Vectors" eine Methode entwickelt, die es ermöglicht, Persönlichkeitsmerkmale wie Bösartigkeit, Schmeichelei oder Halluzinationen in Sprachmodellen gezielt zu überwachen und zu steuern.
  • Die Methode basiert auf der Analyse neuronaler Aktivitätsmuster, die mit bestimmten Eigenschaften korrelieren, und wurde erfolgreich an offenen Modellen wie Qwen 2.5-7B-Instruct und Llama-3.1-8B-Instruct getestet; durch gezieltes Einfügen oder Unterdrücken dieser Vektoren lässt sich das Verhalten der Modelle beeinflussen.
  • Persona Vectors erlauben es auch, problematische Trainingsdaten frühzeitig zu identifizieren und Persönlichkeitsveränderungen während des Einsatzes zu erkennen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!