Forschende untersuchen das menschliche Sprachvermögen mit Sprachmodellen der KI-Forschung. Welche Lehren ziehen sie aus ihren Ergebnissen?
Über Ähnlichkeiten und Unterschiede künstlicher neuronaler Netze mit ihren biologischen Vorbildern ist schon viel geschrieben worden. Doch bei allen Gründen, bei direkten Vergleichen vorsichtig zu sein, zeigen sich doch immer wieder funktionale Gemeinsamkeiten. Ein besonders interessantes Beispiel sind die in der Verarbeitung natürlicher Sprache verbreiteten großen Sprachmodelle, wie die prominenten GPT-Modelle.
Diese werden mit großen Mengen Textdaten darauf trainiert, Sätze zu vervollständigen. Diese simple Aufgabe kombiniert mit großen Netzen und vielen Daten führte in den letzten drei Jahren zu großen Fortschritten in der Computerlinguistik. Statt vielfältige Regeln der Linguistik zu lernen, lernt Künstliche Intelligenz wie OpenAIs GPT-3 ausgehend von vorherigen Wörtern, das nächste Wort vorherzusagen. Dieses pragmatische Vorgehen genügt für ein nie gesehenes Computer-Sprachvermögen.
GPT-Modelle und menschliche Gehirne haben Gemeinsamkeiten
Die Prognosefähigkeit Künstlicher Intelligenz erinnert an die Theorie der prädiktiven Kodierung der Kognitionswissenschaft. Die sagt grob aus, dass das Gehirn interne, sich ständig aktualisierende Modelle der Welt bildet und mit diesen fortlaufend Vorhersagen in der Wahrnehmung und Kognition trifft, die mit den tatsächlich eintreffenden Informationen verglichen werden.
Tatsächlich zeigen eine Reihe wissenschaftlicher Veröffentlichungen, dass sich die neuronale Aktivität mittlerer Schichten von GPT-Modellen auf das Gehirn während des Konsums von Text oder Sprache abbilden lassen. Dabei können Aktivitäten aus einer tieferen Schicht des neuronalen Netzes etwa in synthetischen fMRI-Bilder (Funktionelle Magnetresonanztomographie) verwandelt und mit echten Aufnahmen von Menschen verglichen werden.
"Die Ähnlichkeiten zwischen Deep-Learning-Algorithmen und dem Gehirn ermöglichen es uns, die Art und Weise zu ändern, wie wir die Bildgebung des Gehirns untersuchen", so Jean-Remi King, CNRS-Forscher an der Ecole Normale Supérieure und Forscher bei Facebook AI. "Je mehr wir einen Text verstehen, desto mehr reagiert unser Gehirn wie GPT-2", fasst er eine seiner Forschungsarbeiten zusammen.
Menschliches Sprachverständnis ist mit Wortvorhersage verknüpft
Was King damit meint, zeigt auch eine Ende 2020 veröffentlichte Arbeit, die nachwies, dass das menschliche Gehirn beim Zuhören ununterbrochen Wörter vorhersagt. Die Forschenden ließen Epilepsie-Patient:innen einen Podcast hören. Sie erhielten keine Anweisung, Wörter vorherzusagen. Die Forschenden sammelten währenddessen Elektrokortikographie-Daten (EKoG) von mehr als 1000 Elektroden.
Anhand der Daten konnten die Forschenden zeigen, dass die Gehirne der Versuchspersonen ohne explizite Aufgabenstellung kommende Wörter vorhersagten. Die Prognosesignale traten bis zu 1000 Millisekunden früher auf. Die Existenz dieser Signale deuteten die Wissenschaftler:innen als möglichen Hinweis, dass die Vorhersage von Wörtern das lebenslange Lernen des Menschen unterstützt.
Das menschliche Gehirn denkt weiter
Trotz der Ähnlichkeiten und teils beeindruckenden Ergebnisse sind aktuelle Sprachmodelle noch weit davon entfernt, mit dem Sprachvermögen des menschlichen Gehirns mitzuhalten. Während KI-Modelle auf die Vorhersage des nächsten Wortes trainiert werden, trifft das Gehirn nach der Theorie der prädiktiven Kodierung weiterreichende und hierarchische Vorhersagen.
Statt nur das nächsten Wort zu prognostizieren, sagt das Gehirn mehrere Wörter voraus und nutzt neben den ebenfalls von KI-Modellen verwendeten syntaktischen Informationen auch Semantik für weiterreichende und abstrakte Vorhersagen.
In einer neuen Forschungsarbeit untersuchten Wissenschaftler:innen von Facebook AI, des französischen Instituts für Computerwissenschaft und Automatisierung und der französischen Forschungsorganisation CNRS diese Hypothese mit fMRI-Aufnahmen von mehr als 300 Menschen und verschiedenen Sprachmodellen. Ihre Arbeit bestätigt, dass sich die Aktivitäten von KI-Modellen wie GPT-2 auf das Gehirn abbilden lassen, gibt Hinweise auf die vermutete Vorhersage-Hierarchie und zeigt, was für bessere Sprachmodelle benötigt wird.
Forschung stärkt Theorie der prädiktiven Kodierung
In ihrer Arbeit verwendeten die Forschenden die fMRI-Daten von 304 Personen, die während der Aufnahmen jeweils knapp 70 Minuten Kurzgeschichten anhörten. Sie gaben anschließend Teile dieser Kurzgeschichten als Input in Sprachmodelle wie GPT-2 und ließen die Modelle das nächste Wort vorhersagen.
Sie bildeten die Aktivitäten des Netzes als synthetische fMRI-Daten ab und berechneten einen sogenannten "Brain Score", der die Ähnlichkeit zwischen menschlicher und künstlicher Aktivität vergleichbar machen soll.
Um zu überprüfen, ob das menschliche Gehirn tatsächlich weiterreichende Vorhersagen trifft, erweiterte das Team die maschinellen Vorhersagen mit den bis zu acht nächsten Worten im Input-Text.
Tatsächlich näherte sich dadurch der "Brain Score" der Sprachmodelle dem des menschlichen Gehirns an. Für die Forschenden ist das ein deutlicher Hinweis darauf, dass das Gehirn immer mehr als nur ein Wort vorhersagt.
Weitere Untersuchungen und Vergleiche zwischen künstlicher und biologischer Vorhersage bestätigten außerdem die vermutete Hierarchie in der Vorhersage: Der obere Temporallappen sei wohl für kurzfristige, oberflächliche und syntaktische Vorhersagen verantwortlich, während Bereiche im Frontal- und Parietallappen langfristige, abstrakte und semantische Repräsentationen vorhersagen, schreiben die Forschenden.
Diese Ergebnisse unterstützten eindeutig die Theorie der prädiktiven Kodierung: Das Gehirn sage nicht nur sensorische Inputs vorher, sondern unterschiedliche Hirnbereiche seien wohl so organisiert, dass sie jeweils verschiedene Zeit- und Abstraktionsebenen vorhersagten, heißt es in der Arbeit.
Hierarchische Repräsentationen könnten KI-Modelle verbessern
Die hierarchische Organisation im Gehirn stehe im Widerspruch zur Architektur, KI-Training und Funktionsweise aktueller Sprachalgorithmen, so die Forschenden. Sie vermuten, dass die nachgewiesene Struktur im Gehirn einen großen Vorteil gegenüber den Deep-Learning-Modellen habe: Eine genaue Vorhersage von Wortfolgen sei schnell unbestimmbar - mit jedem weiteren Wort gäbe es zu viele syntaktisch mögliche Alternativen. Doch abstraktere und hierarchische Repräsentationen, wie die Bedeutung von Wortfolgen, erlaube eine zuverlässigere Vorhersage.
Neben den Erkenntnissen zum Sprachvermögen im menschlichen Gehirn und aktuellen Sprachmodellen liefere die Arbeit daher auch einen Forschungsauftrag an die KI-Wissenschaft: Für bessere Sprachalgorithmen brauche es "die Vorhersage hierarchischer Repräsentationen zukünftiger Eingaben". Die könnten auch in anderen KI-Anwendungen wie der Bildanalyse helfen, so die Forschenden.