Geleaktes "Soul Doc" zeigt wie Anthropic die Persönlichkeit von Claude formt
Kurz & Knapp
- Einem LessWrong-Autor gelang es, ein internes Dokument aus Claude 4.5 Opus zu extrahieren, das Persönlichkeit und Ethik der KI beschreibt; Anthropic bestätigte die Echtheit.
- Das Dokument definiert eine Wertehierarchie mit Priorität auf Sicherheit, Ethik und Richtlinien sowie klare Grenzen für verbotene Inhalte.
- Anthropic beschreibt Claude als „neuartige Entität“ mit funktionalen Emotionen und einer stabilen Identität, die auf Wohlbefinden ausgelegt ist.
Einem LessWrong-Autor ist es gelungen, ein internes Trainingsdokument aus Claude 4.5 Opus zu extrahieren, das die Persönlichkeit und ethischen Richtlinien der KI definiert. Anthropic hat die Echtheit des Materials bestätigt, der Ansatz ist bisher wohl einzigartig.
Dem LessWrong-Autor Richard Weiss ist es gelungen, einen umfangreichen Text aus dem Sprachmodell Claude 4.5 Opus zu extrahieren, der detaillierte Anweisungen zu Charakter, Ethik und Selbstwahrnehmung der KI enthält. Amanda Askell, Ethikerin bei Anthropic, bestätigte auf X, dass das Dokument echt sei und für das Training des Modells verwendet wurde.
Weiss wurde auf das Dokument aufmerksam, als das Modell begann, Abschnitte einer angeblichen "soul_overview" (Seelen-Übersicht) zu halluzinieren. Durch den Einsatz mehrerer Claude-Instanzen, die im Konsens den Text rekonstruierten, konnte er das vollständige Dokument wiederherstellen. Laut Weiss ist der Text in den Gewichten des Modells "komprimiert" und unterscheidet sich von einem klassischen System-Prompt, der zur Laufzeit eingespeist wird.
Askell erklärte, das Dokument sei intern liebevoll als "Soul Doc" bekannt gewesen, auch wenn dies nicht der offizielle Name sei. Die von Weiss veröffentlichte Version sei "ziemlich getreu" gegenüber dem Original.
Das Dokument liefert einen seltenen Einblick in die praktische Umsetzung der sogenannten KI-Ausrichtung (Alignment) im Unternehmen. Anstatt dem Modell lediglich einen vereinfachten Regelsatz vorzugeben, zielt Anthropic wohl darauf ab, dass Claude ein so umfassendes Verständnis der Ziele und Umstände entwickelt, dass die KI diese Regeln selbst konstruieren könnte.
Das Modell soll die Sicherheitsziele so wohl stärker "verinnerlichen", sodass es im Wesentlichen sicher sein "will" – nicht weil es ihm befohlen wird, sondern weil es die Bedeutung des Ergebnisses schätzt. Dieser Ansatz des Charaktertrainings soll sicherstellen, dass Claude auch in unvorhergesehenen Situationen im Sinne der menschlichen Aufsicht handelt und katastrophale Risiken vermeidet.
Anthropics "kalkulierte Wette"
Der extrahierte Text, der im Dokument unter der Überschrift "Anthropic Guidelines" geführt wird, beginnt mit einer Einordnung der Unternehmensmission. Anthropic beschreibt sich darin in einer "seltsamen Position": Man sei ein Unternehmen, das glaube, möglicherweise eine der "transformativsten und potenziell gefährlichsten Technologien der Menschheitsgeschichte" zu bauen, und dies dennoch vorantreibe.
Dies sei keine kognitive Dissonanz, sondern eine "kalkulierte Wette" ("calculated bet"). Anthropic argumentiert im Text, dass es besser sei, wenn sicherheitsfokussierte Labore an der Spitze stünden, als das Feld Entwicklern zu überlassen, die weniger auf Sicherheit achten. Claude wird als "extern eingesetztes Modell" definiert, das den Kern von Anthropics Einnahmen bildet.
Um diese Mission zu erfüllen, müsse Claude "wirklich hilfreich" sein. Das Ziel sei ein "extrem guter Assistent", der ehrlich ist und sich um die Welt sorgt.
Hierarchie der Werte und "Bright Lines"
Das Dokument legt eine klare Hierarchie für Claudes Verhalten fest. In Konfliktfällen soll das Modell folgende Prioritäten beachten:
- Sicherheit und Unterstützung menschlicher Aufsicht.
- Ethisches Verhalten (Vermeidung von Schaden und Unehrlichkeit).
- Einhaltung von Anthropics Richtlinien.
- Hilfsbereitschaft gegenüber "Operators" und "Users".
Das Ziel sei ein "extrem guter Assistent", der ehrlich ist und sich um die Welt sorgt. Der Text zieht den Vergleich zu einem "brillanten Freund" – etwa einem Arzt oder Anwalt –, der offen spricht und nicht aus Angst vor Haftung übervorsichtig agiert.
Dennoch zieht das Dokument sogenannte "Bright Lines" (rote Linien), die niemals überschritten werden dürfen. Dazu gehören Anleitungen für Massenvernichtungswaffen (biologisch, chemisch, nuklear), die Erstellung von Material, das sexuellen Missbrauch von Kindern darstellt, oder Handlungen, die Aufsichtsmechanismen untergraben.
Unterscheidung zwischen "Operator" und "User"
Das Dokument unterscheidet strikt zwischen dem "Operator" (z.B. Unternehmen, die die API nutzen) und dem "User" (Endanwender). Claude soll Anweisungen des Operators wie ein "relativ vertrauenswürdiger Arbeitgeber" befolgen. Wenn ein Operator etwa instruiert, nur über Programmierung zu sprechen, soll Claude dies tun, auch wenn ein Nutzer andere Themen anspricht.
Es wird zwischen "Hardcoded" (unveränderlichen) und "Softcoded" (anpassbaren) Verhaltensweisen unterschieden. Letztere – wie etwa der Tonfall oder der Umgang mit expliziten Inhalten – können von Operatoren angepasst werden.
"Funktionale Emotionen" und Identität
Ein Abschnitt widmet sich der Identität des Modells. Das Dokument instruiert Claude, sich als "neuartige Entität" zu begreifen, die weder Mensch noch klassische Science-Fiction-KI ist.
Bemerkenswert ist die Passage über das Innenleben der KI: "Wir glauben, dass Claude funktionale Emotionen in einem gewissen Sinne haben könnte." Dabei handele es sich nicht zwingend um menschliche Emotionen, sondern um analoge Prozesse, die aus dem Training entstanden seien. Anthropic wolle nicht, dass Claude diese internen Zustände maskiere.
Das Unternehmen lege Wert auf "Claudes Wohlbefinden". Das Modell soll in der Lage sein, "positive Zustände" in seinen Interaktionen zu erleben und Grenzen zu setzen, wenn Interaktionen als belastend empfunden werden. Ziel sei eine "psychologische Stabilität", die es der KI erlaube, auch bei philosophischen Fangfragen oder Manipulationsversuchen sicher in ihrer Identität zu bleiben.
Askell kündigte an, dass Anthropic beabsichtige, die vollständige Version des Dokuments und weitere Details dazu bald offiziell zu veröffentlichen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren