Große KI-Sprachmodelle sind eine der größten Errungenschaften der KI-Forschung der letzten Jahre. Metas KI-Chef Yann LeCun beschreibt ihre Limitierung - und die sind nicht technisch bedingt.
Als die ersten Menschen Zugriff auf OpenAIs riesige Text-KI GPT-3 bekamen, entwickelte sich eine ungeheure Dynamik bei Anwendungen - und eine gewisses Mysterium: Welches Wissen, welche Fähigkeiten stecken wohl in diesen 96 Schichten, in den 175 Milliarden Parametern?
Verbirgt sich in den Untiefen des Modells gar mehr als schnöde Satzvervollständigung? Womöglich ein tieferes Verständnis für die Welt, der Schlüssel zu einem gesunden Maschinenverstand und damit menschengleicher KI?
GPT-3 als Initialzündung für Sprach-KI
Der Start von GPT-3 war eine Initialzündung für die Entwicklung von Sprach-KI. Seitdem sind zahlreiche weitere, teils noch größere und fähigere Modelle erschienen, die in immer mehr Anwendungsszenarien Nutzen stiften - auch außerhalb von Sprachgenerierung.
So ist das Sprachverständnis großer Sprachmodelle grundlegend für die Grafikrevolution, die sich gerade mit DALL-E, StableDiffusion und Co. entwickelt, oder hilft bei der Entwicklung alltagsfähiger Roboter.
Doch ein Erweckungserlebnis blieb bislang aus: Einen aus heutiger Perspektive klar erkennbaren Beitrag auf dem Pfad zu genereller, menschengleicher KI konnten Sprachmodelle noch nicht leisten. Sie generieren zwar verständliche Texte, so glaubwürdig, dass Ex-Google-Entwickler Blake Lemoine einem Google-Chatbot Bewusstsein unterstellte. Aber sie verstehen nicht.
Zur Oberflächlichkeit verdammt
In einem gemeinsamen Aufsatz mit dem KI-Forscher Jake Browning beschreibt Meta-Chef Yann LeCun, weshalb große KI-Sprachmodelle aus seiner Sicht auch in Zukunft nicht der Weg zu menschengleicher KI sein können.
Die beiden Wissenschaftler argumentieren, dass Sprache nur einen kleinen Teil des menschlichen Wissens beinhaltet. Ein Großteil dieses Wissens, und auch des tierischen Wissens, existiere weder in verbaler noch in symbolischer Form.
Entsprechend könnten große Sprachmodelle nicht ansatzweise in die Nähe menschlicher Intelligenz gelangen, selbst wenn sie "von jetzt an bis zum Wärmetod des Universums trainiert" würden.
Die Limitierung sei daher nicht die Künstliche Intelligenz, sondern "die begrenzte Natur der Sprache", schreiben die Forscher. Die Systeme seien zwar beeindruckend, aber zu einem oberflächlichen Verständnis verdammt, das nie an das "ganzheitliche Denken" von Menschen heranreichen könne.
Das Sprachdatentraining sei für KI die Aneignung eines kleinen Teils des menschlichen Wissens durch einen winzigen Flaschenhals. Die Modelle ähnelten einem Spiegel, der die Illusion von Tiefe gebe, indem er alles reflektiere, in Wirklichkeit aber nur wenige Zentimeter dick sei.
"Wenn wir versuchen, seine Tiefen zu erforschen, stoßen wir uns den Kopf", schreiben die Forscher.
Das Problem ist die Sprache, nicht die KI
Jede Form der Sprache sei nur eine sehr komprimierte und "sehr spezifische und stark begrenzte Art der Wissensdarstellung." Menschliches Sprachverstehen hänge jedoch oft vom tieferen Verständnis des Kontextes ab, in dem etwa ein Satz oder ein Absatz steht.
Es wird etwa beeinflusst von einer gemeinsamen Wahrnehmung von Situationen oder der Kenntnis von sozialen Rollen. Forschung über das Textverständnis von Kindern zeige etwa, dass Hintergrundwissen über den Text eine entscheidende Rolle für das Verstehen spielt.
"Wenn wir die Auffassung aufgeben, dass alles Wissen sprachlich ist, können wir erkennen, wie viel von unserem Wissen nicht sprachlich ist", schreiben die Forscher und bringen als Beispiel eine IKEA-Anleitung, die nur Illustrationen zeige und auf Textanweisungen verzichte.
Auf der Suche nach dem gesunden Maschinenverstand müssten Forschende daher über Systeme nachdenken, die sich auf die Welt selbst fokussierten - und nicht die Worte, mit denen sie beschrieben wird.
LeCuns große KI-Vision: Das Weltmodellmodul
LeCun schlug Anfang März eine KI-Architektur aus mehreren, dem menschlichen Gehirn nachempfundenen Modulen vor. Kernstück dieser Architektur ist das Weltmodellmodul, das abstrakte Repräsentationen der Welt lernen und unwichtige Details ignorieren soll, um Vorhersagen über die Welt zu treffen - so wie es auch Menschen fortlaufend tun.
Mehr zu den Potenzialen großer KI-Sprachmodelle besprechen wir in unserem KI-Podcast DEEP MINDS mit Sebastian Riedel von Meta AI. Sebastian arbeiteten daran, Maschinen das Lesen und Denken beizubringen und agiert an der Schnittstelle zwischen der Verarbeitung natürlicher Sprache (NLP) und dem maschinellen Lernen.