Inhalt
newsletter Newsletter

Der Neurowissenschaftler Jean-Rémi King leitet das Brain & AI Team in der KI-Abteilung von Meta. Im Gespräch mit The Decoder spricht er über die Verbindung von KI und Neurowissenschaft, über die Herausforderungen langfristiger Vorhersagen in Modellen, über prädiktive Kodierung, die Frage multimodaler Systeme und die Suche nach kognitiven Prinzipien in künstlichen Architekturen.

Anzeige

The Decoder: Herr King, lassen Sie uns mit einer einfachen Frage beginnen: Wie kam es eigentlich dazu, dass Meta sich für Neurowissenschaft interessiert? Das scheint auf den ersten Blick ein ungewöhnlicher Weg zu sein – von einem sozialen Netzwerk zu neurowissenschaftlicher Forschung.

Jean-Rémi King: Ich arbeite bei Meta im FAIR-Labor – dem Fundamental AI Research Lab. FAIR wurde vor etwas mehr als zehn Jahren von Yann LeCun ins Leben gerufen. Die Idee war von Anfang an, ein Forschungsinstitut zu schaffen, das sich ganz der Grundlagenforschung zu künstlicher Intelligenz widmet. Schon damals war in der Branche – und bei Mark Zuckerberg im Besonderen – das Bewusstsein vorhanden, dass KI eine enorme Rolle für die Zukunft der Technologie spielen würde. Es war also strategisch wichtig für das Unternehmen, auf diesem Gebiet ganz vorne mit dabei zu sein.

FAIR wuchs schnell, und viele der Forscherinnen und Forscher arbeiteten im Bereich Computer Vision oder Natural Language Processing. Doch dann gab es die bewusste Entscheidung, das Spektrum der Forschungsansätze zu erweitern. Man wollte sicherstellen, dass nicht alle im Team gleich denken – also wurden auch Physiker eingestellt, und ich wurde als Neurowissenschaftler dazugeholt. Ziel war es, ein vielfältigeres Portfolio an Perspektiven zu etablieren.

Anzeige
Anzeige

Diese Entscheidung war nicht völlig aus dem Nichts. KI und Neurowissenschaft haben eine lange gemeinsame Geschichte. Wir sprechen ja zum Beispiel von künstlichen neuronalen Netzen – diese Idee stammt direkt aus der Systemneurowissenschaft. Auch Konzepte wie hierarchische Schichten in Algorithmen haben dort ihren Ursprung. Über die Jahre gab es viele Berührungspunkte zwischen beiden Disziplinen, und ich denke, Yann LeCun und Joelle Pineau wollten diese Verbindung weiter stärken. In gewisser Weise war das der Grund meiner Einstellung – wobei das nie direkt so zu mir gesagt wurde. Ich wurde einfach eingestellt und hatte dann die Freiheit, meine Forschung weiterzuführen.

The Decoder: War Ihre Arbeit von Anfang an an der Schnittstelle zwischen KI und Neurowissenschaft angesiedelt?

Jean-Rémi King: Ja, gewissermaßen schon. Ich habe vor über zwanzig Jahren, was sich heute fast erschreckend lange anfühlt, ein Studium in Künstlicher Intelligenz und Kognitionswissenschaft gemacht. Schon damals war ich zwischen diesen beiden Welten unterwegs – als Jugendlicher war ich fasziniert von Robotik und der Idee, ein intelligentes System zu bauen. Damals befand sich KI allerdings in einer Art "Winter".

Nach dem Studium habe ich überlegt, dass die Neurowissenschaft vielleicht ein reiferes Feld ist, und mich deshalb stärker in diese Richtung orientiert. Ich habe dann meinen Master und meine Promotion in Neurowissenschaft gemacht und dabei maschinelles Lernen hauptsächlich als Werkzeug zur Analyse komplexer Daten genutzt – nicht als Ziel an sich. Man könnte sagen, ich habe es mehr als Statistik auf Steroiden betrachtet als als eigenständiges Forschungsfeld.

Aber in den Jahren 2011/2012 kam dann die große Beschleunigung im Bereich Deep Learning. Das war der Moment, in dem ich ganz bewusst wieder zur Schnittstelle zwischen Neurowissenschaft und KI zurückgekehrt bin – mit dem Ziel, herauszufinden, ob es allgemeine Prinzipien gibt, die unser Denken strukturieren und auch in Algorithmen wiederzufinden sind.

Empfehlung

The Decoder: Hat Ihre Forschung mit KI Ihre Sicht auf das Gehirn auf einer konzeptuellen Ebene verändert?

Jean-Rémi King: Ich glaube, wenn man das Gehirn studiert, ist man zwangsläufig mit der Frage konfrontiert, was Denken eigentlich bedeutet. Und KI hat diese Frage jetzt auch für ein breites Publikum aufgeworfen. Viele Begriffe, von denen wir dachten, wir hätten ein gutes intuitives Verständnis – wie etwa "Vernunft" oder "Denken" – müssen wir vielleicht ganz neu bewerten, wenn wir sehen, was heutige KI-Systeme leisten können.

Für uns in der Forschung ist das eine große Quelle der Faszination: Wie kann es sein, dass reine physikalische Prozesse – Nervenzellen, die miteinander kommunizieren, elektrische Signale – zu etwas wie Intelligenz oder Bewusstsein führen? Diese Frage hat mich überhaupt erst in das Feld gebracht. Und viele meiner Kolleginnen und Kollegen haben einen ähnlichen Weg genommen.

The Decoder: Haben Sie eine persönliche „Lieblingstheorie“, wie das Gehirn funktioniert? In Ihren Arbeiten erwähnen Sie öfter prädiktive Kodierung. Ist das ein Framework, das Sie für besonders vielversprechend halten?

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Jean-Rémi King: Das ist eine schwierige Frage. Ich denke, viele von uns haben ein ambivalentes Verhältnis zur prädiktiven Kodierung – eine Art Hassliebe. Die Theorie wurde in den 1990er-Jahren von Rao und Ballard populär gemacht und später von Karl Friston weiterentwickelt. Friston ist eine faszinierende Figur: Er hat brillante Ideen, aber auch eine Neigung, Dinge hinter sehr kryptischer Mathematik zu verstecken. Man liest seine Gleichungen und erkennt darin oft klassische Formeln, nur in ungewohnten Notationen.

Das ist vielleicht auch sinnbildlich für die Theorie selbst: Sie enthält viele interessante Ideen, aber sobald man versucht, sie in präzise, empirisch testbare Hypothesen zu übersetzen, wird es schwierig. Die zentrale Idee ist, dass ein System durch Minimierung von Vorhersagefehlern lernt – und dass das möglicherweise ausreicht, um intelligente Repräsentationen zu erzeugen. Aber warum genau das funktioniert, ist bis heute nicht klar. Es scheint ein hinreichendes Prinzip zu sein, aber ob es auch ein notwendiges ist, das wissen wir nicht. Ich habe jedenfalls keine Lieblingstheorie – aber ich finde es spannend, in großen Theorien wie dieser nach Konzepten zu suchen, die uns helfen könnten, das Gehirn besser zu verstehen.

The Decoder: In einem Ihrer früheren Paper schreiben Sie sinngemäß, dass Wortfolgen – also die Reihenfolge einzelner Wörter – schnell unvorhersehbar werden, während ihre Bedeutung vielleicht stabiler bleibt. Sie schlagen darin vor, dass es für ein intelligentes System wichtig sein könnte, nicht nur die nächsten Wörter vorherzusagen, sondern abstraktere, hierarchische Repräsentationen über längere Zeiträume hinweg zu antizipieren. Mich interessiert: Haben Sie seither in Ihrer Forschung neue Erkenntnisse dazu gewonnen – auch im Hinblick auf andere Modalitäten wie Bilder oder Videos, wo ähnliche Herausforderungen bei der zeitlichen Strukturierung auftreten?

Jean-Rémi King: Ja, das Thema hat uns weiter beschäftigt. Die Grundidee – nicht nur die direkte Zukunft vorherzusagen, sondern auch weiter entfernte Entwicklungen – ist nach wie vor sehr relevant. Aber in der Praxis ist es extrem schwierig, Modelle zu bauen, die das wirklich leisten. Selbst heute ist es schwer, ein System zu entwickeln, das etwa einen ganzen Absatz oder eine ganze Seite auf einmal generiert. Multi-Token-Prediction funktioniert, aber skaliert nicht gut.

Ich glaube, die eigentliche Herausforderung ist, eine Architektur zu finden, die langfristige Inferenz im latenten Raum leisten kann. Der klassische Transformer stößt da an Grenzen. In unserer Gruppe haben wir deshalb entschieden, uns nicht auf die Suche nach neuen Architekturen zu konzentrieren – dafür gibt es genug andere Teams. Stattdessen arbeiten wir eng mit Gruppen zusammen, die z. B. an Videoverarbeitung oder Codegenerierung arbeiten – also genau an Problemen, bei denen langfristige Planung entscheidend ist. Die Erkenntnis bisher ist vor allem: Dieses Problem ist wirklich sehr, sehr schwer.

The Decoder: Und wie sieht es mit dem Fortschritt auf der KI-Seite aus? Haben aktuelle Entwicklungen das menschliche Denken in dieser Hinsicht besser eingefangen – oder sind wir noch weit davon entfernt?

Anzeige
Anzeige

Jean-Rémi King: Es gibt Fortschritte, ja. Aber es ist nicht der lineare Fortschritt, den viele anfangs erwartet hatten. Als ChatGPT aufkam, glaubten viele: „Skalierung ist alles“. Doch inzwischen ist klar: Mehr Daten und größere Modelle bringen zwar Verbesserungen, aber nicht mehr in einem vernünftigen Tempo. Menschen lernen Sprache mit viel weniger Input – Kinder etwa mit nur einigen Millionen Wörtern. Das ist im Vergleich zu den gigantischen Textmengen, die Sprachmodelle benötigen, verschwindend gering. Es zeigt, dass unsere aktuellen Architekturen und Optimierungsverfahren ineffizient sind.

Aber es gibt auch positive Entwicklungen: Modelle werden effizienter, brauchen weniger Rechenleistung, können auf kleineren Geräten laufen. Das macht sie zugänglicher – was wiederum die Forschung voranbringt. Auch bei der Generierung von Bildern und Videos gab es große Fortschritte. Aber konzeptionell fehlt bislang der nächste große Sprung – wie damals die Einführung des Transformers. Viele glauben, dass so ein Durchbruch noch kommen wird, z. B. durch neue Trainingsziele oder Architekturen. Auch der Energieverbrauch ist ein offenes Problem: Die heutigen KI-Systeme sind extrem energieintensiv, das menschliche Gehirn arbeitet dagegen mit minimalem Verbrauch. Ein Paradigmenwechsel wäre hier dringend nötig – aber er ist noch nicht in Sicht.

The Decoder: Haben Sie in Ihrer Forschung auch systematisch untersucht, wie sich die Modellgröße auf die Ähnlichkeit zur neuronalen Verarbeitung im Gehirn auswirkt? Etwa bei Ihren Arbeiten mit Sprachmodellen wie GPT-2 – und wenn man heute ein Modell wie GPT-4 betrachten würde?

Jean-Rémi King: Ja, solche Vergleiche machen wir inzwischen fast routinemäßig. Was wir – und auch andere Teams – beobachten, ist recht robust: Wenn man ein KI-Modell auf eine Sprachaufgabe trainiert, etwa ein großes Sprachmodell auf Textverarbeitung, dann entwickelt dieses Modell Repräsentationen, die in gewisser Weise denen im menschlichen Gehirn ähneln. Wir können das zeigen, indem wir die Aktivierungen im Gehirn – etwa beim Lesen oder Hören von Geschichten – mithilfe von bildgebenden Verfahren oder Elektrophysiologie messen. Diese Aktivierungen vergleichen wir dann mit den Aktivierungen der KI-Modelle – und es zeigt sich, dass die Ähnlichkeit mit dem Gehirn umso größer wird, je besser das Modell trainiert ist.

Das gilt nicht nur für Text, sondern auch für Bilder, Videos, motorische Aktionen oder Navigation. Es hat sich ein ganz neues Forschungsfeld entwickelt: der systematische Vergleich von neuronalen und künstlichen Repräsentationen.

Innerhalb dieses Feldes interessiert uns auch, welche Faktoren diese Ähnlichkeit beeinflussen: Ist es die Modellgröße? Die Menge der Trainingsdaten? Die Verwendung von Attention? Das Lernziel – also etwa ob das Modell überwacht oder unüberwacht trainiert wurde?

Anzeige
Anzeige

Was wir bislang sehen, ist: Alle diese Faktoren spielen eine gewisse Rolle. Aber der wichtigste Faktor scheint die Fähigkeit des Modells zu sein, seine Aufgabe gut zu lösen. Ein Modell, das gut in Textvorhersage, Übersetzung oder Objekterkennung ist, produziert Repräsentationen, die dem Gehirn ähnlicher sind – unabhängig von der Architektur.

Natürlich gibt es Ausnahmen: Es gibt auch Modelle, die sehr leistungsfähig sind, aber nicht so stark ans Gehirn angelehnt wirken. Aber als erste Näherung scheint zu gelten: Leistung korreliert mit Ähnlichkeit.

The Decoder: Das heißt, ein größeres Modell ist nicht automatisch besser in Bezug auf Ähnlichkeit zum Gehirn – es kommt auch auf das Training an?

Jean-Rémi King: Genau. GPT-4 ist leider nicht offen zugänglich, daher können wir es nicht direkt vergleichen. Aber wir arbeiten mit offenen Modellen bei FAIR, und da sehen wir: Größere Modelle neigen dazu, dem Gehirn ähnlicher zu sein – aber nur, wenn sie auch gut trainiert wurden. Ein großes Modell, das schlecht trainiert ist, wird dem Gehirn nicht automatisch ähnlicher. Die Größe ist also nicht der entscheidende Faktor – sondern das, was sie ermöglicht. Wenn die Größe zu besserer Leistung führt, dann sehen wir auch eine stärkere Ähnlichkeit zum Gehirn.

The Decoder: Lassen Sie uns noch über multimodale Modelle sprechen. Denken Sie, dass der Erfolg menschlichen Lernens auf der Integration verschiedener Modalitäten beruht – und sehen Sie da Parallelen zu den Fortschritten bei multimodalen KI-Modellen?

Jean-Rémi King: Das ist eine sehr kontrovers diskutierte Frage in der Forschung. Ich kann Ihnen meine Meinung sagen, aber es gibt keinen wissenschaftlichen Konsens dazu. Es gibt eine lange Tradition in der Kognitionswissenschaft, in der sich einige Forscher stark für eine Verkörperung von Kognition ausgesprochen haben – etwa Francisco Varela mit dem Konzept der "embodied cognition". Hier geht es darum, dass Sprache und Denken nur in Verbindung mit Sinneserfahrung sinnvoll entstehen können.

Anzeige
Anzeige

Auf der anderen Seite stehen Theorien wie jene von Noam Chomsky, die davon ausgehen, dass Sprache ein weitgehend unabhängiges System ist – dass wir Wörter und Sätze kombinieren können, ohne auf visuelle oder auditive Wahrnehmung angewiesen zu sein.

Was wir heute sehen, ist: Multimodale Modelle dominieren nicht. Es ist sehr schwierig, ein Modell zu bauen, das in mehreren Modalitäten gleichzeitig Spitzenleistung bringt. Ein reines Sprachmodell ist oft besser im Umgang mit Sprache als ein multimodales Modell, das auch Bilder verarbeitet. Das Training solcher Modelle ist komplex, und es ist nicht so, dass man automatisch bessere Resultate bekommt, nur weil man mehrere Modalitäten kombiniert.

Ich persönlich tendiere dazu, Sprache als relativ unabhängiges System zu sehen – zumindest in ihrer Grundstruktur. Wir wissen aus der Psychologie, dass Menschen, die von Geburt an blind sind, in der Lage sind, völlig normal logisch zu denken und etwa bei Intelligenztests vergleichbare Leistungen zeigen wie sehende Menschen. Auch bei Gehörlosen ist das oft der Fall, wenngleich hier Sprache stärker betroffen sein kann – vor allem, wenn der Spracherwerb verzögert ist.

Eine interessante Beobachtung ist aber: Sprache ist ein knappes Gut – sowohl für Menschen als auch für KI. Wir hören täglich vielleicht 10.000 bis 20.000 Wörter – das ist nicht viel. Auch KI-Modelle stoßen an Grenzen, was verfügbare Textdaten betrifft: Wir haben bald alles verfügbare Textmaterial erfasst. Bei Bildern oder Videos hingegen gibt es praktisch unbegrenzt viele Daten – nur fehlt uns noch die Rechenleistung, um sie effizient zu verarbeiten.

Diese Unterschiede – begrenzte Sprache versus unendliche visuelle Daten – könnten sich in Zukunft ergänzen. Es lohnt sich also, weiter in diese Richtung zu forschen.

The Decoder: Eine letzte Frage: Was halten Sie von Reasoning-Modellen? Also Systemen, die explizit versuchen, Schlussfolgerungen zu ziehen. Gibt es Pläne, solche Modelle bei Ihnen zu untersuchen?

Anzeige
Anzeige

Jean-Rémi King: Ich bin kein Spezialist für Reasoning-Modelle, aber ich finde diese Entwicklungen sehr spannend. Konzepte wie "Chain-of-Thought" sind in der Kognitionswissenschaft schon lange bekannt. Jetzt gibt es endlich Modelle, die solche Ideen umsetzen – also etwa untersuchen, ob es sinnvoller ist, eine Gedankenkette in Sprache zu formulieren oder im latenten Raum, also auf der Ebene von Konzepten.

Auch die Verbindung zwischen Deep Learning und Reinforcement Learning wird interessanter. Die Idee, große Sprachmodelle für agentenhaftes Verhalten zu optimieren, führt uns zurück zu den "World Models" in der Verstärkungslern-Forschung. Es ist schön zu sehen, dass diese Felder heute enger zusammenarbeiten als früher – dass KI nicht länger aus voneinander getrennten Zweigen besteht, sondern sich als integriertes Forschungsfeld entwickelt.

Über Jean-Rémi King

Jean-Rémi King ist CNRS-Forscher an der École Normale Supérieure und derzeit bei Meta AI tätig, wo er das Brain & AI-Team leitet. Sein Team erforscht die neuronalen und rechnerischen Grundlagen menschlicher Intelligenz – mit Schwerpunkt auf Sprache – und entwickelt Deep-Learning-Algorithmen zur Analyse von Gehirnaktivität (MEG, EEG, Elektrophysiologie, fMRT).

Das Interview wurde am 14. März 2025 geführt.

Interviewer: Maximilian Schreiner

Anzeige
Anzeige

Das englische Originalinterview können Sie auf the-decoder.com lesen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!