Eine Studie vergleicht die Zwischenschritte von Transformer-Modellen mit menschlicher Echtzeitverarbeitung. Die Ergebnisse deuten darauf hin, dass KI-Modelle Antworten auf ähnliche Weise entwickeln wie Menschen.
Forschende der Universitäten Harvard, Brown und Tübingen untersuchten erstmals systematisch, ob die internen Verarbeitungsschritte von Transformer-basierten Sprach- und Bildmodellen Ähnlichkeiten mit menschlichem Denken aufweisen. Ihr Ziel war es, herauszufinden, ob diese Modelle uns helfen können, menschliche Denkprozesse besser zu verstehen.
Anstatt nur die Endergebnisse der KI-Modelle zu betrachten, analysierten die Forscher, wie sich die Wahrscheinlichkeiten für verschiedene Antwortmöglichkeiten während der Verarbeitung entwickeln. Diese detaillierte Untersuchung der Zwischenschritte sollte aufzeigen, ob KI-Systeme Informationen auf ähnliche Weise verarbeiten wie das menschliche Gehirn.
Was genau wurde verglichen?
Die Studie untersucht, wie sich die Wahrscheinlichkeiten für mögliche Antworten in einem KI-Modell während eines Forward-Passes verändern. Ein Forward-Pass ist der Prozess, bei dem Informationen durch alle Schichten des neuronalen Netzwerks von der Eingabe zur Ausgabe fließen.
Die Forscher verglichen diese Veränderungen in den KI-Modellen mit verschiedenen Aspekten menschlichen Verhaltens. Dazu gehören die Zeit, die Menschen für eine Antwort benötigen, wie sie beim Tippen vorgehen, wie sie ihre Maus bewegen und wie genau ihre Antworten sind.
Um diese Vergleiche zu ermöglichen, wurden aus den Modellen sogenannte Prozessmetriken extrahiert: etwa die Entropie (als Maß für Unsicherheit), das Vertrauen in die korrekte Antwort, das relative Vertrauen gegenüber einer plausiblen, aber falschen Alternative sowie ein Boosting-Wert, der beschreibt, wie stark die Wahrscheinlichkeit der richtigen Antwort im Vergleich zur intuitiven Antwort in bestimmten Schichten zunimmt.
Diese Metriken wurden mit von Menschen gesammelten Daten konfrontiert. In jedem Fall wurde ein Modell (lineare Regressionsmodell) genutzt, das zunächst nur Output-Metriken der Modelle (etwa die finale Wahrscheinlichkeit für eine Antwort) zur Vorhersage menschlicher Daten nutzte. Danach wurde untersucht, ob die Aufnahme von Prozessmetriken – also Informationen über die Schicht-Dynamiken – die Vorhersagekraft dieser Modelle erhöht.
Fünf kognitive Aufgaben – fünf Vergleichsszenarien
Zunächst mussten Versuchspersonen die Hauptstadt von Ländern oder US-Bundesstaaten abrufen (z. B. "Illinois" gleich "Springfield"). Die Modelle erhielten denselben Prompt ("The capital of Illinois is …") und generierten Wahrscheinlichkeiten über mögliche Städte.
Die Forschenden wählten Items mit bewusst irreführenden Alternativen (z. B. "Chicago") und verglichen die Schicht-Dynamiken des Modells mit den zuvor erwähnten verschiedenen Maßen menschlicher Unsicherheit.
Die Ergebnisse zeigten, dass Modelle in mittleren Schichten oft zunächst höhere Wahrscheinlichkeiten für die intuitive, aber falsche Stadt zeigten, bevor spätere Schichten die korrekte Antwort "boosten". Dieses zweistufige Muster ähnelte dem menschlichen Verhalten: Auch Menschen zögerten länger oder korrigierten häufiger, wenn eine plausible, aber falsche Option im Spiel war.
Anschließend wurden typische und untypische Tierexemplare kategorisiert (z. B. "Wal" als Säugetier). Die Modelle erhielten Prompts wie "A whale is a type of …". Die menschlichen Daten stammten aus Maus-Tracking: Die zeitlich-räumliche Bewegung der Maus wurde mit den Schicht-Dynamiken der Modelle korreliert. Besonders die Boosting-Metriken sagten die Stärke der Mausabweichung und die Zeit bis zur Entscheidung gut voraus.
Das dritte Experiment untersuchte syllogistisches Schlussfolgern – also logisches Urteilen über Argumente. Menschen tendieren hier zu sogenannten "Inhaltseffekten": Sie halten Argumente eher für gültig, wenn das Ergebnis mit ihrem Weltwissen übereinstimmt, auch wenn es formal falsch ist. Die Modelle zeigten ähnliche Verzerrungen, und auch hier verbesserten Prozessmetriken wie das zeitlich integrierte Vertrauen in die korrekte Antwort der Vorhersage menschlicher Reaktionszeiten.
Das vierte Experiment zielte schließlich auf einen modalitätsübergreifenden Vergleich ab: Menschliche Leistungen bei der Objekterkennung aus verzerrten oder stilisierten Bildern wurden mit Vision-Transformation-Modellen verglichen. Auch hier zeigte sich, dass die Entropie über Schichten menschliche Fehler und Reaktionszeiten besser vorhersagte als die endgültige Klassifikationswahrscheinlichkeit.
Nicht nur richtige Antworten – auch ähnliche Denkpfade
Die Ergebnisse zeigen über alle Aufgaben hinweg: Prozessmetriken aus Transformer-Modellen verbessern die Vorhersage menschlicher Verhaltensdaten deutlich – insbesondere für Maße, die mit kognitiver Belastung oder Unsicherheit korrelieren.
Dabei offenbart sich eine funktionale Parallele zwischen Mensch und Maschine: Was für ein Modell "schwierig" ist, etwa weil es mehrere Schichten benötigt, um die richtige Antwort zu verstärken, erweist sich auch für Menschen als herausfordernd und ist mit längeren Reaktionszeiten oder häufigeren Korrekturen verbunden.
Aufgrund dieser Erkenntnisse schlagen die Autoren vor, große Sprach- und Bildmodelle nicht mehr nur als Blackboxen zu betrachten, die Eingaben in Ausgaben übersetzen. Stattdessen empfehlen sie, diese Modelle als explizite Modelle menschlicher Verarbeitung zu verstehen.
Ein solcher Ansatz könnte dazu beitragen, neue kognitive Hypothesen zu testen, Verarbeitungsschwächen aufzudecken oder adaptive KI-Systeme zu entwickeln, die Unsicherheit besser erkennen und kommunizieren können.
Basis für Erklärbarkeit und neue Forschungsfragen
Die Studie positioniert sich als konzeptionelle Brücke zwischen mechanistischer KI-Interpretierbarkeit und kognitiver Modellierung. Sie formuliert aber auch klare Grenzen: Die getesteten Modelle stammen alle aus der Llama-2- und ViT-Familie, wurden nicht feinjustiert und decken nur bestimmte Aufgabentypen ab. Ob andere Architekturen oder Trainingsregime ähnliche Ergebnisse liefern, bleibt offen.
Unklar ist auch, ob die Schichtdynamik eines Modells eher dem individuellen Denkprozess einer Person oder dem Durchschnitt einer Gruppe ähnelt. Die Autoren sehen ihre Arbeit als einen Ausgangspunkt, der erste Belege dafür liefert, dass die internen Rechenschritte von KI-Systemen sinnvoll mit menschlicher Kognition verglichen werden können.