Inhalt
summary Zusammenfassung

Mit einer speziellen Analysemethode haben Anthropic-Forscher faszinierende Einblicke in die internen Repräsentationen ihres Sprachmodells Claude 3 Sonnet gewonnen.

Anzeige

Ein Forschungsteam von Anthropic hat mit Hilfe einer speziellen Technik Millionen von Merkmalen (Features) aus dem Sprachmodell Claude 3 Sonnet extrahiert und analysiert.

Die verwendete Methode basiert auf der Idee, dass künstliche neuronale Netze Konzepte in Form von Aktivierungsmustern in ihren internen Schichten repräsentieren. Durch die Analyse dieser Muster können die gelernten Konzepte sichtbar gemacht werden.

Die Forscherinnen und Forscher konnten aus einzelnen Teilen des neuronalen Netzes Merkmale extrahieren, die für bestimmte Konzepte stehen. | Bild: Anthropic

Konkret nutzten die Forscher eine Technik namens "Dictionary Learning". Dabei wird ein separates neuronales Netz darauf trainiert, die Aktivierungen einer bestimmten Schicht des zu untersuchenden Modells möglichst kompakt zu rekonstruieren. Die trainierten Gewichte dieses Netzes bilden dann ein "Wörterbuch" von Aktivierungsmustern, den so genannten Features. Jedes Feature repräsentiert ein vom Modell gelerntes Konzept.

Anzeige
Anzeige

Sprachmodell wird zur Golden Gate Bridge

Mit dieser Methode fanden die Forscher etwa ein Merkmal, das spezifisch auf die Erwähnung der Golden Gate Bridge reagiert. Wird dieses Feature künstlich auf das Zehnfache seines Maximalwertes aktiviert, beginnt sich das Modell sogar selbst mit der Brücke zu identifizieren und erzeugt Aussagen wie "Ich bin die Golden Gate Bridge und verbinde San Francisco mit Marin County".

Beispiele für die Verstärkung einzelner Merkmale, die einen großen Einfluss auf die Modellgenerierung haben. | Bild: Anthropic

Ein anderes Beispiel ist ein "Immunologie"-Feature, das auf Diskussionen über Immunschwäche, spezifische Krankheiten und Immunreaktionen reagiert. In der Nähe dieses Features finden sich verwandte Konzepte wie Impfstoffe und Organsysteme mit Immunfunktion.

Die gefundenen Merkmale für "Immunologie". | Bild: Anthropic

Die extrahierten Merkmale decken eine enorme Bandbreite ab: Von bekannten Persönlichkeiten und Orten über syntaktische Elemente in Programmcode bis hin zu abstrakten Konzepten wie Empathie oder Sarkasmus. Viele Merkmale reagieren sowohl auf textuelle Erwähnungen als auch auf Bilder der entsprechenden Konzepte, obwohl die Analysemethode nur auf Textdaten angewendet wurde.

Darüber hinaus fanden die Forscher Hinweise auf eine hierarchische Organisation der Merkmale. So spaltet sich etwa ein allgemeines Feature "San Francisco" bei einer detaillierteren Analyse in mehrere spezifischere Features für einzelne Sehenswürdigkeiten und Stadtteile auf. Ähnliches gilt für Länderfeatures wie Kanada oder Island, die sich bei näherer Betrachtung in Unterfeatures zu Geografie, Kultur und Politik aufspalten.

Die verschiedenen Merkmale, die mit dem Merkmal "San Francisco" verbunden sind. | Bild: Anthropic

Ein Kerzenlicht in der KI-Blackbox

Das Anthropic-Team sieht in den Ergebnissen einen wichtigen Schritt hin zu mehr Transparenz und Kontrolle über leistungsfähige KI-Systeme. Gleichzeitig weisen die Forscher in dem Artikel aber auch auf die enormen Herausforderungen hin, die die Übertragung der Interpretierbarkeit auf immer größere Modelle mit sich bringt.

Empfehlung

"Die Merkmale, die wir gefunden haben, stellen nur eine kleine Teilmenge aller Konzepte dar, die das Modell während des Trainings gelernt hat. Mit unseren heutigen Techniken wäre es viel zu rechenintensiv, einen vollständigen Satz von Merkmalen zu finden - der dafür notwendige Rechenaufwand würde die für das Training des Modells verwendete Rechenleistung bei Weitem übersteigen."

Die Forscher stießen auch auf potenziell problematische Eigenschaften des Modells. So gibt es Funktionen, die auf die Entwicklung von Biowaffen, Betrug oder Manipulation reagieren und das Verhalten des Modells entsprechend beeinflussen können.

Die bloße Existenz dieser Funktionen bedeute nicht zwangsläufig, dass die Modelle gefährlich seien, heißt es in dem Papier. Es zeige aber, dass ein besseres Verständnis darüber notwendig sei, wann und wie diese Funktionen aktiviert werden.

Die gewonnenen Erkenntnisse könnten in Zukunft helfen, Sprachmodelle besser zu verstehen, robuster zu machen und sicherer einzusetzen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Anthropic-Forscher haben eine spezielle Analysemethode namens "Dictionary Learning" verwendet, um Millionen von Merkmalen aus ihrem Sprachmodell Claude 3 Sonnet zu extrahieren und zu analysieren.
  • Die Methode ermöglicht es, Aktivierungsmuster in den internen Schichten des Modells zu rekonstruieren, so dass die Forscher Konzepte wie die Golden Gate Bridge oder Immunologie identifizieren konnten, die das Modell gelernt hat.
  • Die Analyse zeigte eine hierarchische Organisation der Merkmale und identifizierte potenziell problematische Merkmale, die auf biologische Waffen oder Betrug reagieren könnten. Dies unterstreicht die Notwendigkeit, die Aktivierung solcher Merkmale besser zu verstehen und zu kontrollieren.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!