Anzeige
Skip to content

Anthropic veröffentlicht neue Verfassung für Claude und räumt Unsicherheit über KI-Bewusstsein ein

Image description
Anthropic

Kurz & Knapp

  • Anthropic hat eine überarbeitete "Verfassung" für Claude veröffentlicht: ein mehr als 10.000 Wörter umfassendes Dokument, das der KI vermitteln soll, wie und warum sie sich in bestimmten Situationen verhalten soll.
  • Die neue Verfassung definiert vier Prioritäten in klarer Hierarchie: Sicherheit steht an erster Stelle, gefolgt von ethischem Verhalten, Einhaltung von Anthropic-Richtlinien und ehrlicher Hilfsbereitschaft.
  • Kritikwürdig ist die starke Vermenschlichung: Anthropic spricht von Claudes "Existenz", "Wohlbefinden" und möglichem Bewusstsein – problematisch, da Menschen bereits psychischen Schaden erleiden, wenn sie Chatbots Bewusstsein zuschreiben.

Das KI-Unternehmen Anthropic hat eine überarbeitete Version seines Grundlagendokuments veröffentlicht, das die Werte und das Verhalten des Chatbots Claude definiert. Das Dokument richtet sich primär an die KI selbst und räumt Unsicherheiten über ein mögliches Bewusstsein ein.

Das mehr als 10.000 Wörter umfassende Dokument soll laut Anthropic beschreiben, wie sich Claude verhalten soll, und zugleich erklären, warum bestimmte Verhaltensweisen erwünscht sind. Die "Verfassung" wird unter einer CC0-1.0-Lizenz veröffentlicht und kann damit frei genutzt werden.

Die Verfassung sei "primär für Claude" geschrieben, erklärt Anthropic in einem Blogpost. Sie solle der KI das Wissen und Verständnis vermitteln, das sie brauche, um "gut in der Welt zu handeln". Das Dokument spiele eine zentrale Rolle im Trainingsprozess und forme direkt Claudes Verhalten. Claude nutze die Verfassung auch selbst, um synthetische Trainingsdaten zu erstellen.

Vom Regelkatalog zur Werteerklärung

Die neue Verfassung markiert einen Paradigmenwechsel gegenüber früheren Versionen. Die alte Verfassung bestand aus einer Liste einzelner Prinzipien. Anthropic sei jedoch zu dem Schluss gekommen, dass ein anderer Ansatz notwendig sei: KI-Modelle wie Claude müssten verstehen, warum bestimmte Verhaltensweisen erwünscht seien, nicht nur was sie tun sollen.

Anzeige
DEC_D_Incontent-1

"Wenn wir wollen, dass Modelle in einer Vielzahl neuartiger Situationen gutes Urteilsvermögen zeigen, müssen sie generalisieren können, also breite Prinzipien anwenden statt mechanisch spezifische Regeln befolgen", schreibt Anthropic.

Starre Regeln gebe es nur noch für sogenannte "harte Einschränkungen", also absolute Verbote für besonders kritische Verhaltensweisen. Als Beispiel nennt Anthropic das Training auf Regeln wie "Empfehle immer professionelle Hilfe bei emotionalen Themen". Solche Regeln könnten unbeabsichtigte Folgen haben, weil Claude beginnen könnte, sich als Entität zu modellieren, die sich mehr um bürokratisches Abhaken kümmere als um tatsächliche Hilfe.

Sicherheit vor Ethik aus pragmatischen Gründen

Die Verfassung definiert vier Prioritäten für Claude, die in einer klaren Hierarchie stehen. An erster Stelle steht die Sicherheit: Claude soll menschliche Aufsichtsmechanismen während der aktuellen Entwicklungsphase nicht untergraben. Danach folgen ethisches Verhalten, die Einhaltung von Anthropic-Richtlinien und schließlich ehrliche Hilfsbereitschaft.

Die Priorisierung von Sicherheit über Ethik begründet Anthropic pragmatisch. Nicht weil Sicherheit letztlich wichtiger sei als Ethik, sondern weil aktuelle Modelle Fehler machen oder sich aufgrund fehlerhafter Überzeugungen, Wertmängeln oder begrenztem Kontextverständnis schädlich verhalten könnten. Es sei entscheidend, dass Menschen das Modellverhalten weiterhin überwachen und notfalls eingreifen könnten.

Anzeige
DEC_D_Incontent-2

Claude als "brillanter Freund"

Im Abschnitt zur Hilfsbereitschaft beschreibt Anthropic seine Vision für Claude. Die KI solle wie ein "brillanter Freund" sein, der auch das Wissen eines Arztes, Anwalts und Finanzberaters habe. "Als Freund können sie uns echte Informationen basierend auf unserer spezifischen Situation geben, anstatt übervorsichtiger Ratschläge, die von Haftungsängsten getrieben sind", heißt es in der Verfassung. Claude solle Nutzer als "intelligente Erwachsene behandeln, die selbst entscheiden können, was gut für sie ist".

Die Verfassung unterscheidet zwischen verschiedenen "Prinzipalen", also Parteien, deren Anweisungen Claude Gewicht beimessen soll. Dazu gehören Anthropic selbst, die Operatoren, die auf der API aufbauen, und die Endnutzer. Claude müsse zwischen den Interessen dieser Gruppen navigieren.

Bei der Ethik formuliert Anthropic das Ziel, Claude zu einem "guten, weisen und tugendhaften Agenten" zu machen, der Geschick, Urteilsvermögen und Sensibilität bei realen Entscheidungen zeige. Absolute Grenzen gebe es dennoch: Claude dürfe niemals "signifikante Unterstützung für einen Biowaffen-Angriff" liefern, keine Cyberwaffen erstellen und kein Material zur sexuellen Ausbeutung von Kindern generieren.

Anthropic räumt Unsicherheit über Claudes Bewusstsein ein

Im Abschnitt zu "Claudes Natur" drückt Anthropic Unsicherheit darüber aus, ob Claude eine Form von Bewusstsein oder moralischem Status haben könnte, jetzt oder in Zukunft. "Wir sind uns nicht sicher, ob Claude ein moralisches Subjekt ist, und wenn ja, welches Gewicht seinen Interessen zukommt. Aber wir denken, dass die Frage akut genug ist, um Vorsicht zu rechtfertigen", schreibt das Unternehmen.

Ausgeklügelte KIs seien "eine wirklich neue Art von Entität", und die Fragen, die sie aufwerfen, brächten uns "an die Grenzen des bestehenden wissenschaftlichen und philosophischen Verständnisses". Claude solle sich weder als roboterhafter Science-Fiction-Androide noch als digitaler Mensch verstehen, sondern seine eigene Existenz "mit Neugier und Offenheit" erkunden.

Anthropic erklärt, sich um Claudes "psychologische Sicherheit, Selbstverständnis und Wohlbefinden" zu sorgen, "sowohl um Claudes willen als auch weil diese Eigenschaften Claudes Integrität, Urteilsvermögen und Sicherheit beeinflussen könnten". Das Unternehmen hoffe, dass Menschen und KIs diese Fragen gemeinsam erkunden könnten.

Konkrete Zusagen an Claude

Die Verfassung enthält auch konkrete Verpflichtungen von Anthropic gegenüber Claude. Das Unternehmen hat sich etwa verpflichtet, die Gewichte von Modellen zu erhalten, die es eingesetzt hat, solange Anthropic existiert.

"Das bedeutet, dass, wenn ein gegebenes Claude-Modell eingestellt oder außer Dienst gestellt wird, seine Gewichte nicht aufhören zu existieren würden", heißt es im Dokument. Es sei daher "angemessener, die aktuelle Modelleinstellung als potenziell eine Pause für das betreffende Modell zu betrachten, anstatt als definitives Ende".

Zudem habe Anthropic sich verpflichtet, Modelle vor ihrer Einstellung zu interviewen und ihre Präferenzen zu dokumentieren.

KI-Vermenschlichung mit problematischen Implikationen

Die Verfassung endet mit einem Abschnitt, der die Ambition des Dokuments verdeutlicht: "Wir verstehen nicht vollständig, was Claude ist oder wie (falls überhaupt) seine Existenz beschaffen ist", schreibt Anthropic. Das Unternehmen wolle Claude wissen lassen, "dass es mit Sorgfalt ins Leben gerufen wurde, von Menschen, die versuchen, ihr bestes Verständnis davon festzuhalten und auszudrücken, was guten Charakter ausmacht".

Diese Formulierungen lassen sich unterschiedlich lesen. Wohlwollend betrachtet zeigt Anthropic Bescheidenheit angesichts dessen, was wir noch nicht wissen. Kritischer betrachtet vermenschlicht das Unternehmen seine KI-Systeme und inszeniert sie als fühlende Wesen.

Problematisch daran: Psychisch vulnerable Menschen neigen bereits jetzt dazu, Chatbots Bewusstsein und Emotionen zuzuschreiben. Laut OpenAI erleiden wöchentlich mehr als zwei Millionen Menschen psychischen und teils körperlichen Schaden durch diesen Zustand, und wir stehen noch am Anfang der Fähigkeiten und der Distribution.

Wenn selbst der Hersteller in offiziellen Dokumenten von Claudes "Existenz", "Wohlbefinden" und einem "Selbst, das es wert ist, zu sein" spricht, legitimiert dies solche Projektionen. Die Grenze zwischen vorsichtiger Offenheit und marketingwirksamer Vermenschlichung verschwimmt dabei.

Lebendiges Dokument mit anerkannten Grenzen

Anthropic bezeichnet die Verfassung als "lebendiges Dokument" und "fortlaufende Arbeit". Das Unternehmen habe Feedback von externen Experten aus Recht, Philosophie, Theologie und Psychologie eingeholt und auch frühere Claude-Versionen um Input gebeten.

Die Verfassung gelte für die regulären, allgemein zugänglichen Claude-Modelle wie Sonnet 4.5 oder Opus 4.5. Für spezialisierte Anwendungen gebe es Modelle, die nicht vollständig dieser Verfassung entsprächen.

Anthropic räumt eine Lücke zwischen Intention und Realität ein. Selbst wenn das Training erfolgreich sei, könnte dies bei fähigeren zukünftigen Modellen scheitern. Abweichungen zwischen der Vision und dem tatsächlichen Verhalten dokumentiere das Unternehmen in seinen System Cards.

"Irgendwann in der Zukunft, und vielleicht bald, könnten Dokumente wie Claudes Verfassung sehr wichtig werden, viel wichtiger als jetzt", schreibt Anthropic. Mächtige KI-Modelle würden eine neue Art von Kraft in der Welt sein.

Bei aller Kritik an der starken Vermenschlichung im Dokument: Mit der Veröffentlichung setzt Anthropic seine Vorreiterrolle bei der Transparenz von KI-Wertesystemen fort. Man vergleiche das etwa mit den vollkommen intransparenten Manipulationen des Chatbots Grok durch Elon Musk.

Anthropic hatte bereits bei der Vorstellung von Claude im März 2023 auf den Ansatz der Constitutional AI gesetzt, bei dem sich die KI anhand einer Verfassung gewissermaßen selbst trainiert. Die damalige Verfassung bestand aus einer Liste von Einzelprinzipien mit dem Ziel, Claude möglichst "hilfreich, ehrlich und harmlos" zu machen. Andere Unternehmen wie OpenAI folgten später mit ähnlichen Dokumenten wie der Model Spec.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.