Inhalt
summary Zusammenfassung

Eine Studie vergleicht die Zwischenschritte von Transformer-Modellen mit menschlicher Echtzeitverarbeitung. Die Ergebnisse deuten darauf hin, dass KI-Modelle Antworten auf ähnliche Weise entwickeln wie Menschen.

Anzeige

Forschende der Universitäten Harvard, Brown und Tübingen untersuchten erstmals systematisch, ob die internen Verarbeitungsschritte von Transformer-basierten Sprach- und Bildmodellen Ähnlichkeiten mit menschlichem Denken aufweisen. Ihr Ziel war es, herauszufinden, ob diese Modelle uns helfen können, menschliche Denkprozesse besser zu verstehen.

Anstatt nur die Endergebnisse der KI-Modelle zu betrachten, analysierten die Forscher, wie sich die Wahrscheinlichkeiten für verschiedene Antwortmöglichkeiten während der Verarbeitung entwickeln. Diese detaillierte Untersuchung der Zwischenschritte sollte aufzeigen, ob KI-Systeme Informationen auf ähnliche Weise verarbeiten wie das menschliche Gehirn.

Was genau wurde verglichen?

Die Studie untersucht, wie sich die Wahrscheinlichkeiten für mögliche Antworten in einem KI-Modell während eines Forward-Passes verändern. Ein Forward-Pass ist der Prozess, bei dem Informationen durch alle Schichten des neuronalen Netzwerks von der Eingabe zur Ausgabe fließen.

Anzeige
Anzeige

Die Forscher verglichen diese Veränderungen in den KI-Modellen mit verschiedenen Aspekten menschlichen Verhaltens. Dazu gehören die Zeit, die Menschen für eine Antwort benötigen, wie sie beim Tippen vorgehen, wie sie ihre Maus bewegen und wie genau ihre Antworten sind.

Um diese Vergleiche zu ermöglichen, wurden aus den Modellen sogenannte Prozessmetriken extrahiert: etwa die Entropie (als Maß für Unsicherheit), das Vertrauen in die korrekte Antwort, das relative Vertrauen gegenüber einer plausiblen, aber falschen Alternative sowie ein Boosting-Wert, der beschreibt, wie stark die Wahrscheinlichkeit der richtigen Antwort im Vergleich zur intuitiven Antwort in bestimmten Schichten zunimmt.

Diese Metriken wurden mit von Menschen gesammelten Daten konfrontiert. In jedem Fall wurde ein Modell (lineare Regressionsmodell) genutzt, das zunächst nur Output-Metriken der Modelle (etwa die finale Wahrscheinlichkeit für eine Antwort) zur Vorhersage menschlicher Daten nutzte. Danach wurde untersucht, ob die Aufnahme von Prozessmetriken – also Informationen über die Schicht-Dynamiken – die Vorhersagekraft dieser Modelle erhöht.

Fünf kognitive Aufgaben – fünf Vergleichsszenarien

Zunächst mussten Versuchspersonen die Hauptstadt von Ländern oder US-Bundesstaaten abrufen (z. B. "Illinois" gleich "Springfield"). Die Modelle erhielten denselben Prompt ("The capital of Illinois is …") und generierten Wahrscheinlichkeiten über mögliche Städte.

Die Forschenden wählten Items mit bewusst irreführenden Alternativen (z. B. "Chicago") und verglichen die Schicht-Dynamiken des Modells mit den zuvor erwähnten verschiedenen Maßen menschlicher Unsicherheit.

Empfehlung

Die Ergebnisse zeigten, dass Modelle in mittleren Schichten oft zunächst höhere Wahrscheinlichkeiten für die intuitive, aber falsche Stadt zeigten, bevor spätere Schichten die korrekte Antwort "boosten". Dieses zweistufige Muster ähnelte dem menschlichen Verhalten: Auch Menschen zögerten länger oder korrigierten häufiger, wenn eine plausible, aber falsche Option im Spiel war.

Anschließend wurden typische und untypische Tierexemplare kategorisiert (z. B. "Wal" als Säugetier). Die Modelle erhielten Prompts wie "A whale is a type of …". Die menschlichen Daten stammten aus Maus-Tracking: Die zeitlich-räumliche Bewegung der Maus wurde mit den Schicht-Dynamiken der Modelle korreliert. Besonders die Boosting-Metriken sagten die Stärke der Mausabweichung und die Zeit bis zur Entscheidung gut voraus.

Das dritte Experiment untersuchte syllogistisches Schlussfolgern – also logisches Urteilen über Argumente. Menschen tendieren hier zu sogenannten "Inhaltseffekten": Sie halten Argumente eher für gültig, wenn das Ergebnis mit ihrem Weltwissen übereinstimmt, auch wenn es formal falsch ist. Die Modelle zeigten ähnliche Verzerrungen, und auch hier verbesserten Prozessmetriken wie das zeitlich integrierte Vertrauen in die korrekte Antwort der Vorhersage menschlicher Reaktionszeiten.

Das vierte Experiment zielte schließlich auf einen modalitätsübergreifenden Vergleich ab: Menschliche Leistungen bei der Objekterkennung aus verzerrten oder stilisierten Bildern wurden mit Vision-Transformation-Modellen verglichen. Auch hier zeigte sich, dass die Entropie über Schichten menschliche Fehler und Reaktionszeiten besser vorhersagte als die endgültige Klassifikationswahrscheinlichkeit.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Nicht nur richtige Antworten – auch ähnliche Denkpfade

Die Ergebnisse zeigen über alle Aufgaben hinweg: Prozessmetriken aus Transformer-Modellen verbessern die Vorhersage menschlicher Verhaltensdaten deutlich – insbesondere für Maße, die mit kognitiver Belastung oder Unsicherheit korrelieren.

Dabei offenbart sich eine funktionale Parallele zwischen Mensch und Maschine: Was für ein Modell "schwierig" ist, etwa weil es mehrere Schichten benötigt, um die richtige Antwort zu verstärken, erweist sich auch für Menschen als herausfordernd und ist mit längeren Reaktionszeiten oder häufigeren Korrekturen verbunden.

Aufgrund dieser Erkenntnisse schlagen die Autoren vor, große Sprach- und Bildmodelle nicht mehr nur als Blackboxen zu betrachten, die Eingaben in Ausgaben übersetzen. Stattdessen empfehlen sie, diese Modelle als explizite Modelle menschlicher Verarbeitung zu verstehen.

Ein solcher Ansatz könnte dazu beitragen, neue kognitive Hypothesen zu testen, Verarbeitungsschwächen aufzudecken oder adaptive KI-Systeme zu entwickeln, die Unsicherheit besser erkennen und kommunizieren können.

Basis für Erklärbarkeit und neue Forschungsfragen

Die Studie positioniert sich als konzeptionelle Brücke zwischen mechanistischer KI-Interpretierbarkeit und kognitiver Modellierung. Sie formuliert aber auch klare Grenzen: Die getesteten Modelle stammen alle aus der Llama-2- und ViT-Familie, wurden nicht feinjustiert und decken nur bestimmte Aufgabentypen ab. Ob andere Architekturen oder Trainingsregime ähnliche Ergebnisse liefern, bleibt offen.

Unklar ist auch, ob die Schichtdynamik eines Modells eher dem individuellen Denkprozess einer Person oder dem Durchschnitt einer Gruppe ähnelt. Die Autoren sehen ihre Arbeit als einen Ausgangspunkt, der erste Belege dafür liefert, dass die internen Rechenschritte von KI-Systemen sinnvoll mit menschlicher Kognition verglichen werden können.

Anzeige
Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Universitäten Harvard, Brown und Tübingen zeigen, dass die Zwischenschritte in Transformer-Modellen strukturelle Ähnlichkeiten mit menschlicher Informationsverarbeitung aufweisen – etwa beim Abrufen von Fakten oder logischem Schlussfolgern.
  • In fünf kognitiven Tests verbesserten Metriken wie Entropie oder prozessuales Vertrauen aus den Modell-Schichten die Vorhersage menschlicher Reaktionen, etwa bei Reaktionszeit, Tippverhalten oder Mausbewegungen.
  • Die Studie schlägt vor, große KI-Modelle nicht nur als Werkzeuge zur Antwortgenerierung zu sehen, sondern als potenzielle Modelle menschlichen Denkens – betont aber zugleich methodische Einschränkungen und offenen Forschungsbedarf.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!