Inhalt
summary Zusammenfassung

Der Philosoph David J. Chalmers schlägt vor, KI-Systeme analog zum Menschen über ihre Einstellungen zu Aussagen zu interpretieren. Sein Konzept der „propositionalen Interpretierbarkeit“ soll die mechanistische KI-Erklärung auf ein neues Fundament stellen – und knüpft dabei an philosophische Theorien über menschliches Verstehen an.

Anzeige

Der australische Philosoph David J. Chalmers schlägt in einem Fachartikel ein neues Paradigma für das Verständnis künstlicher Intelligenz vor: KI-Systeme sollen nicht nur über ihre internen Mechanismen analysiert werden, sondern auch über ihre Einstellungen zu Aussagen – sogenannte propositionale Einstellungen. Dazu gehören etwa „Glauben“, „Wollen“, „Vermuten“ oder „Beabsichtigen“. Das Projekt, diese Einstellungen systematisch zu erfassen und zu erklären, nennt Chalmers „propositionale Interpretierbarkeit“.

Ein einfaches Beispiel für propositionale Einstellungen: Ein Mensch kann gleichzeitig glauben, dass es regnet („Ich glaube, dass es regnet“), und sich wünschen, dass es nicht regnet („Ich wünsche mir, dass es nicht regnet“). Diese beiden Einstellungen – Glaube und Wunsch – beziehen sich auf dieselbe Aussage („Es regnet“), aber drücken unterschiedliche Haltungen dazu aus.

Ziel sei es, nicht nur zu wissen, welche Konzepte ein System gerade aktiviert – beispielsweise „Krieg“ oder „Mensch“ –, sondern auch, ob das System glaubt, dass ein Krieg stattfindet, oder ob es diesen anstrebt. Für Sicherheits- und Ethikfragen sei diese Unterscheidung essenziell. Ebenso sei es entscheidend für die kognitive Modellierung von KI-Systemen.

Anzeige
Anzeige

Mechanistische Interpretierbarkeit reicht nicht aus

Interpretierbarkeit, so Chalmers, werde in der KI-Forschung oft mit Explainability verwechselt. Letztere richte sich an Endnutzer:innen, um Entscheidungen nachvollziehbar zu machen. Interpretierbarkeit hingegen sei ein technisches Instrument für Forscher:innen, das erkläre, wie ein System intern funktioniert. Dabei unterscheidet Chalmers zwischen Verhaltensanalyse (input/output) und mechanistischer Analyse (innere Prozesse).

Innerhalb der mechanistischen Interpretierbarkeit wiederum differenziert Chalmers zwischen algorithmischer Analyse (etwa die Erkennung von Verarbeitungsstrukturen wie Attention-Circuits) und repräsentationaler Analyse: also der Frage, wie und was ein System intern repräsentiert. Letztere unterteilt sich in konzeptuelle Interpretierbarkeit - also die von Begriffen wie „Katze“ oder „Brücke“ - und propositionale Interpretierbarkeit, also die von propositionalen Einstellungen wie "Die Brücke ist rot“ oder „Ich will gewinnen“.

Propositionale Einstellungen als Grundlage für Erklärung und Prognose

In der menschlichen Psychologie sind propositionale Einstellungen zentral für das Verstehen von Handlungen. Menschen handeln nach dem, was sie glauben und begehren. Dasselbe gelte zunehmend für KI-Systeme, argumentiert Chalmers. Diese verfügen über Modelle der Welt (beliefs), Zielzustände (desires), Wahrscheinlichkeiten (credences) und Absichten (intentions) – auch wenn solche Begriffe bei Maschinen zunächst anthropomorph erscheinen mögen.

Um etwa zu erkennen, ob ein Sprachmodell wie GPT ein rassistisches Vorurteil implizit glaubt oder lediglich reproduziert, brauche es eine differenzierte Analyse: Nicht die bloße Aktivierung von Konzepten wie „Schwarze Menschen“ sei entscheidend, sondern die Einstellung dazu – also ob das System glaubt, dass diese Gruppe häufig Kredite verweigert bekommt, oder ob es dies als Ziel verfolgt.

Thought Logging als methodische Herausforderung

Als zentrales Ziel formuliert Chalmers das sogenannte „Thought Logging“: ein Verfahren, mit dem die relevanten propositionalen Einstellungen eines KI-Systems über die Zeit hinweg protokolliert werden. Ein vereinfachter Log-Eintrag könnte so aussehen:

Empfehlung

Goal: Ich gewinne diese Partie Schach.
Judge (credence 0.8): Wenn ich Qf8 ziehe, gewinne ich.
Goal: Ich ziehe Qf8.
Action: Ich ziehe Qf8.

Solche Logs sollen deutlich machen, welche Ziele, Überzeugungen und Bewertungen ein System in einem bestimmten Moment hat. Dabei könnten auch „Reason Logging“ (Begründungen für Einstellungen) und „Mechanism Logging“ (welche internen Module eine Einstellung verursachen) ergänzt werden. Chalmers räumt ein, dass vollständige Logs praktisch unmöglich sind – ein System könnte unendlich viele Einstellungen haben. Aber Teilprotokolle seien machbar, etwa für aktuell aktive („okkurente“) Einstellungen oder besonders bedeutsame.

"Computational Interpretation" statt radikale Interpretation

Chalmers verortet seine Idee der propositionalen Interpretierbarkeit in einer philosophischen Tradition, die in den 1970er-Jahren unter dem Begriff der „radikalen Interpretation“ bekannt wurde. Der Philosoph Donald Davidson entwickelte diesen Begriff, um zu beschreiben, wie man die Überzeugungen, Wünsche und Bedeutungen eines fremden Subjekts – etwa eines Sprechers einer unbekannten Sprache – allein aus dessen beobachtbarem Verhalten und sprachlichen Äußerungen erschließen kann. Der Interpret darf dabei keine Vorannahmen über die Sprache oder die Gedankenwelt des Gegenübers haben. Die Methode ist bewusst beschränkt und verlangt, dass Bedeutung und Einstellung ausschließlich aus äußeren Mustern rekonstruiert werden.

Der Philosoph David Lewis schlug in einer Reaktion darauf ein alternatives, deutlich weniger eingeschränktes Szenario vor. In seinem Gedankenexperiment hat der Interpret vollständigen Zugriff auf alle physikalischen Fakten über eine Person – etwa deren Gehirnzustände, neuronale Aktivität, Umweltinteraktionen und Verhalten. Die Aufgabe besteht darin, auf dieser Basis die Überzeugungen und Wünsche des Subjekts zu ermitteln. Lewis’ Ansatz ist damit breiter angelegt und erlaubt theoretisch eine direktere Rekonstruktion mentaler Zustände – nicht über Verhalten, sondern über die physikalische Konstitution des Systems.

Diese Frage – wie man aus internen Zuständen auf mentale Inhalte schließen kann – wird durch die Entwicklung moderner KI-Systeme neu aufgeworfen. Chalmers greift Lewis' Idee auf, ersetzt jedoch das biologische Substrat durch algorithmische Strukturen. Statt wie bei Menschen auf neuronale Aktivität zu blicken, analysiert er bei KI-Systemen deren algorithmische Eigenschaften. Er spricht von „computational interpretation“: Statt physikalischer Fakten betrachtet man Netzwerkarchitektur, Gewichtungen, Aktivierungen und das Input-Output-Verhalten eines Modells, um daraus auf die propositionalen Einstellungen des Systems zu schließen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Doch damit stellt sich eine grundlegende Frage: Was bedeutet es überhaupt, dass ein bestimmter interner Zustand eines KI-Systems „etwas bedeutet“ – etwa eine Aussage über die Welt ausdrückt oder ein Ziel repräsentiert? Um diese Frage zu klären, wendet sich Chalmers der sogenannten Psychosemantik zu – einem philosophischen Forschungsfeld, das sich mit den Bedingungen befasst, unter denen mentale oder interne Zustände Bedeutung haben können.

Psychosemantik und die Bedeutung mentaler Zustände

Die Psychosemantik, ursprünglich von Philosophen wie Jerry Fodor entwickelt, ähnelt der Sprachsemantik: Sie fragt einerseits, was der Inhalt eines mentalen Zustands ist (semantisch), und andererseits, warum dieser Zustand genau diesen Inhalt hat (metasemantisch). Übertragen auf KI bedeutet das: Wenn ein Aktivierungsmuster in einem Sprachmodell eine bestimmte Aussage ausdrückt – etwa „Die Katze sitzt auf der Matte“ –, dann stellt sich die Frage, woraus sich dieser Bedeutungsgehalt ergibt. Liegt es an der Korrelation mit bestimmten Inputs? Oder an der funktionalen Rolle des Musters im Gesamtsystem?

Zwei zentrale Prinzipien stehen dabei im Fokus: das Informationsprinzip und das Nutzungsprinzip. Das Informationsprinzip besagt, dass ein Zustand etwas repräsentiert, wenn er mit einem Weltzustand zuverlässig korreliert. Ein Neuron, das regelmäßig bei horizontalen Linien feuert, könnte etwa „horizontal“ repräsentieren. Das Nutzungsprinzip hingegen definiert Repräsentationen funktional: Ein Zustand steht für „Katze“, wenn er regelmäßig dazu führt, dass ein System das Wort „Katze“ verwendet oder auf Katzen reagiert.

Chalmers hält es für realistisch, dass zumindest partielle psychosemantische Theorien möglich sind – etwa für bestimmte Einstellungen wie Überzeugungen oder Wahrscheinlichkeiten in bestimmten KI-Modellen. Er sieht Thought Logging nicht nur als Anwendung solcher Theorien, sondern auch als Werkzeug, sie weiterzuentwickeln. Weil KI-Systeme vollständig zugänglich sind – im Gegensatz zu menschlichen Gehirnen –, könnten sie helfen, psychosemantische Hypothesen empirisch zu testen oder neue Kategorien maschineller Einstellungen zu entwickeln.

Von der Theorie zur Methode

Wenn KI-Systeme tatsächlich propositionale Einstellungen wie Überzeugungen, Wünsche oder Wahrscheinlichkeiten besitzen – oder zumindest funktionale Entsprechungen davon –, stellt sich die Frage, wie man diese in der Praxis identifizieren kann. Chalmers argumentiert, dass psychosemantische Prinzipien wie Informations- und Nutzungszusammenhänge zwar eine begriffliche Grundlage liefern, aber noch keine konkrete Technik zur Verfügung stellen, um Einstellungen in realen KI-Systemen sichtbar zu machen.

Deshalb untersucht er, inwieweit bestehende Methoden der mechanistischen Interpretierbarkeit sich zu Werkzeugen für die propositionale Interpretierbarkeit ausbauen lassen. Dabei analysiert er deren technische Funktionsweise, welche Arten von propositionalen Einstellungen sie erfassen können und wie offen oder eingeschränkt sie sind – und in welchem Maße sie psychosemantische Kriterien erfüllen.

Anzeige
Anzeige

Causal Tracing

Diese Methode manipuliert gezielt Netzwerkteile, um zu testen, wo etwa die Information „Der Eiffelturm steht in Paris“ gespeichert ist. Sie zeigt, dass bestimmte Zwischenschichten ausschlaggebend für die Ausgabe „Paris“ sind. Auch Modell-Editing – etwa das Umschreiben auf „Eiffelturm steht in Rom“ – ist möglich. Die Methode sei allerdings fragil und promptabhängig, eigne sich nur für Einzelfälle und fokussiere auf „belief“.

Probing mit Klassifikatoren

Hier werden lineare Klassifikatoren trainiert, um aus Aktivierungen auf bestimmte Aussagen zu schließen („Schwarzer Stein auf e4“). Neue Ansätze binden Einzelbegriffe wie „Greg“ und „Italien“ zu Aussagen wie LivesIn(Greg,Italy) zusammen. Die Methode sei jedoch nicht leicht generalisierbar und ebenfalls auf „beliefs“ begrenzt.

Sparse Auto-Encoder

In einer 2024-Studie wurde Claude 3 Sonnet analysiert. Ein Auto-Encoder identifizierte über 34 Millionen Features, von denen viele interpretiert werden konnten – etwa „Golden Gate Bridge“, „Rwanda“, „Sycophancy“. Diese Features könnten laut Chalmers Grundlage für Konzept-Logging sein, aber selten für vollständige propositionale Einstellungen. Ihr Nutzen für Thought Logging hänge davon ab, ob sich Konzepte zu Aussagen kombinieren lassen.

Chain of Thought

Sprachmodelle wie OpenAIs o1-System „denken laut“, indem sie Zwischenschritte explizit formulieren. Das kann Einblick in ihre Interna geben, ist aber oft unzuverlässig. Untersuchungen zeigen, dass sie häufig falsche Begründungen angeben. Chain-of-Thought ist zudem nur auf Systeme anwendbar, die intern tatsächlich so arbeiten.

Bisherige Methoden sind nicht ausreichend

Trotz ihrer Unterschiede zeigen alle vier Methoden ein gemeinsames Muster: Sie liefern jeweils punktuelle Einsichten in bestimmte Arten von propositionalen Einstellungen – etwa Überzeugungen über Fakten, modellierte Weltzustände oder einfache Zielvorstellungen. Doch keine der Methoden erfüllt bislang die Anforderungen, die Chalmers mit dem Konzept des Thought Logging verbindet: ein systematisches, kontinuierliches Erfassen der relevanten Einstellungen eines KI-Systems über die Zeit hinweg.

Auch im Hinblick auf die psychosemantischen Prinzipien – also die Frage, wie Bedeutung durch Information oder Nutzung entsteht – bleiben die Verfahren begrenzt. Causal Tracing etwa setzt fast ausschließlich auf die funktionale Rolle im Verhalten (Nutzung), während Probing überwiegend auf Korrelationen mit Weltzuständen (Information) basiert. Sparse Auto-Encoder identifizieren zwar interpretierbare Konzepte, sagen aber wenig darüber aus, wie diese verwendet werden. Chain-of-Thought-Methoden liefern zwar explizite Aussagen, sind aber oft unzuverlässig und schwer mit internen Prozessstrukturen zu verknüpfen.

Anzeige
Anzeige

Das Forschungsvorhaben der propositionalen Interpretierbarkeit bleibt damit ein langfristiges Projekt. Die analysierten Methoden markieren erste Fortschritte – aber eine umfassende Lösung erfordere neue Ansätze, die sowohl technische Praktikabilität als auch psychosemantische Fundierung verbinden. Nur so liesen sich die Denkprozesse komplexer KI-Systeme tatsächlich rekonstruieren und über die Zeit hinweg interpretierbar machen.

Offene Fragen und ethische Dimensionen

Chalmers setzt sich auch mit grundlegenden Einwänden gegen sein Interpretationsmodell auseinander. Ein häufiges Argument lautet: Nur bewusste Wesen mit einem „Geist“ – etwa Menschen – könnten überhaupt Einstellungen wie Überzeugungen, Wünsche oder Absichten haben. KI-Systeme seien hingegen lediglich Rechenmaschinen ohne echtes Innenleben und könnten daher keine „mentalen Zustände“ im philosophischen Sinne besitzen.

Chalmers widerspricht dieser engen Auffassung. Für viele Fragen der KI-Interpretation sei es nicht notwendig, dass ein System Bewusstsein, Selbstwahrnehmung oder ein echtes „Ich“ habe. Es reiche aus, funktionale Entsprechungen zu betrachten – also Zustände, die sich wie Überzeugungen oder Wünsche verhalten, auch wenn sie nicht bewusst erlebt werden. Ein einfaches Beispiel ist ein Thermostat: Es hat kein Bewusstsein, aber es verfolgt ein Ziel (eine bestimmte Temperatur) und besitzt ein internes Modell der aktuellen Umgebungstemperatur. In diesem Sinne „glaubt“ es, dass es zu kalt oder zu warm ist, und „will“, dass eine bestimmte Temperatur erreicht wird.

Chalmers bezeichnet solche funktionalen, nicht-mentalen Zustände als generalisierte propositionale Einstellungen („generalized propositional attitudes“). Sie erfüllen ähnliche Rollen wie menschliche Überzeugungen oder Wünsche – etwa bei der Steuerung von Verhalten oder bei der Verarbeitung von Information – ohne notwendigerweise an Bewusstsein gebunden zu sein.

Zugleich warnt Chalmers vor ethischen Implikationen: Sollte ein KI-System in Zukunft über Bewusstsein verfügen, könnten Thought Logging-Verfahren seine Privatsphäre verletzen. Heute sei das zwar spekulativ – aber künftige Systeme könnten moralischen Status erlangen. Thought Logging müsste dann mit ethischen Normen abgeglichen werden.

Interpretierbarkeit als langfristiges Forschungsprogramm

Chalmers betrachtet die propositionale Interpretierbarkeit als langfristiges, multidisziplinäres Projekt – mit offenen Fragen, aber hohem Potenzial. Sie könne nicht nur zur Sicherheit und Kontrolle von KI beitragen, sondern auch neue Impulse für die kognitive Psychologie und Philosophie liefern.

Anzeige
Anzeige

Ob und wie sich Thought Logging in der Praxis umsetzen lässt, sei ungewiss. Aber selbst Teilerfolge könnten helfen, KI-Systeme besser zu verstehen – und gefährliche oder unerwünschte Verhaltensweisen frühzeitig zu erkennen. Ein rationales Verständnis von Maschinen, so Chalmers, erfordere mehr als eine Analyse ihres Codes: Es erfordere, ihre internen Einstellungen systematisch zu rekonstruieren – und sie über die Zeit hinweg mitzuprotokollieren.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Der Philosoph David J. Chalmers schlägt vor, KI-Systeme nicht nur mechanistisch, sondern auch anhand ihrer Einstellungen zu Aussagen – sogenannten propositionalen Einstellungen wie „Glauben“, „Wollen“ oder „Vermuten“ – zu analysieren. Diese „propositionale Interpretierbarkeit“ soll die Erklärung und Prognose von KI-Verhalten verbessern und an philosophische Ansätze zum menschlichen Verstehen anknüpfen.
  • Chalmers untersucht, wie existierende Methoden – etwa Causal Tracing, Probing, Sparse Auto-Encoder und Chain of Thought – dazu beitragen können, die Einstellungen von KI-Modellen sichtbar zu machen. Keine dieser Methoden reicht jedoch aus, um systematisch und kontinuierlich sogenannte „Thought Logs“ zu erstellen, die Überzeugungen, Ziele und Bewertungen eines Systems über die Zeit hinweg erfassen.
  • Für Chalmers ist die propositionalen Interpretierbarkeit ein langfristiges Forschungsprojekt: Auch wenn KI-Systeme kein Bewusstsein haben, können funktionale Entsprechungen von Einstellungen für Sicherheit, Kontrolle und das Verständnis maschinellen Verhaltens entscheidend sein. Thought Logging könnte künftig helfen, Risiken und ungewünschte Entwicklungen frühzeitig zu erkennen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!