Werden große Sprachmodelle Wörter jemals so verstehen, wie wir es tun? Ein Psychologe und ein Kognitionswissenschaftler gehen dieser Frage nach.
Als wir GPT-3, ein extrem leistungsfähiges und beliebtes Sprachsystem mit Künstlicher Intelligenz, fragten, ob es eher eine Papierkarte oder einen Stein benutzen würde, um ein Feuer für ein Grillfest anzufachen, zog es den Stein vor.
Würdest du zum Glätten eines zerknitterten Rocks eine warme Thermoskanne oder eine Haarnadel nehmen? GPT-3 schlug die Haarnadel vor.
Und wenn du dein Haar für die Arbeit in einem Fast-Food-Restaurant bedecken musst, was wäre dann besser: ein Papier-Sandwichpapier oder ein Hamburger-Brötchen? GPT-3 entschied sich für das Brötchen.
Warum trifft GPT-3 diese Wahl, wenn die meisten Menschen die Alternative wählen würden? Weil GPT-3 Sprache nicht so versteht wie Menschen.
Körperlose Worte
Einer von uns ist ein Psychologe, der vor über 20 Jahren eine Reihe von Szenarien wie die oben genannten vorlegte, um das Verständnis eines Computermodells der Sprache aus dieser Zeit zu testen. Das Modell war nicht in der Lage, sich zwischen Steinen und Karten zu entscheiden, um ein Feuer anzufachen, während Menschen dies mühelos schafften.
Der andere von uns ist Doktorand der Kognitionswissenschaften und gehörte zu einem Team, das vor kurzem dieselben Szenarien zum Testen von GPT-3 verwendet hat. Obwohl GPT-3 besser abschnitt als das ältere Modell, war es deutlich schlechter als der Mensch. Es hat die drei oben genannten Szenarien völlig falsch eingeschätzt.
GPT-3, die Maschine, die die erste Version von ChatGPT angetrieben hat, lernt über Sprache, indem sie aus Milliarden von Fällen herausliest, welche Wörter auf andere Wörter folgen sollten. Die starken statistischen Regelmäßigkeiten in Sprachsequenzen ermöglichen es GPT-3, viel über Sprache zu lernen. Und dieses sequenzielle Wissen ermöglicht es ChatGPT oft, sinnvolle Sätze, Aufsätze, Gedichte und Computercode zu produzieren.
Obwohl GPT-3 sehr gut darin ist, die Regeln dafür zu lernen, was in der menschlichen Sprache auf was folgt, hat es nicht die geringste Ahnung, was irgendeines dieser Wörter für einen Menschen bedeutet. Wie sollte es auch?
Der Mensch ist ein biologisches Wesen, das sich mit einem Körper entwickelt hat, der in der physischen und sozialen Welt agieren muss, um seine Aufgaben zu erfüllen. Sprache ist ein Werkzeug, das den Menschen dabei hilft. GPT-3 ist ein künstliches Softwaresystem, das das nächste Wort vorhersagt. Es muss mit diesen Vorhersagen in der realen Welt nichts anfangen können.
Ich bin, also verstehe ich
Die Bedeutung eines Wortes oder Satzes steht in engem Zusammenhang mit dem menschlichen Körper: der Fähigkeit zu handeln, wahrzunehmen und Gefühle zu empfinden. Die menschliche Wahrnehmung wird durch die Verkörperung gestärkt. Das Verständnis eines Begriffs wie "Sandwich Wrap" umfasst beispielsweise das Aussehen, die Haptik und das Gewicht des Papiers und damit auch die Art und Weise, wie wir es verwenden können: zum Einpacken eines Brotes. Zum Verständnis der Menschen gehört auch, wie man es für unzählige andere Gelegenheiten verwenden kann, wie z. B. das Zerknüllen zu einem Ball für ein Spiel oder um die eigenen Haare zu bedecken.
Alle diese Verwendungsmöglichkeiten ergeben sich aus der Natur des menschlichen Körpers und seinen Bedürfnissen: Menschen haben Hände, mit denen sie Papier falten können, einen Haarschopf, der etwa so groß ist wie eine Butterbrothülle, und das Bedürfnis, eine Arbeit zu haben und folgen daher der Regeln die eigenen Haare zu bedecken. Das heißt, Menschen verstehen es, Dinge auf eine Art und Weise zu nutzen, die in Sprachgebrauchsstatistiken nicht erfasst wird.
GPT-3, sein Nachfolger GPT-4 und Alternativen wie Bard, Chinchilla und LLaMA haben keine Körper und können daher nicht selbst bestimmen, welche Objekte faltbar sind, oder die vielen anderen Eigenschaften, die der Psychologe J.J. Gibson als Affordanzen bezeichnete. Mit den Händen und Armen des Menschen eignen sich Papierkarten, um eine Flamme entfachen, und eine Thermoskanne ermöglicht das Ausrollen von Falten.
Ohne Arme und Hände, ganz zu schweigen von dem Wunsch, auf der Arbeit keine zerknitterte Kleidung zu tragen, kann GPT-3 diese Affordanzen nicht bestimmen. Es kann sie nur vortäuschen, wenn es im Wortstrom des Internets auf etwas Ähnliches gestoßen ist.
Wird eine KI mit einem großen Sprachmodell jemals die Sprache so verstehen wie der Mensch? Unserer Ansicht nach nicht, wenn sie nicht einen menschenähnlichen Körper, Sinne, Ziele und Lebensweisen hat.
Auf dem Weg zu einem Sinn für die Welt
GPT-4 wurde nicht nur auf Text, sondern auch auf Bildern trainiert, so dass es statistische Beziehungen zwischen Wörtern und Pixeln lernen kann. Obwohl wir unsere ursprüngliche Analyse mit GPT-4 nicht durchführen können, weil es derzeit die Wahrscheinlichkeit, die es den Wörtern zuordnet, nicht ausgibt, hat GPT-4 die drei Fragen richtig beantwortet, als wir sie dem System gestellt haben. Dies könnte darauf zurückzuführen sein, dass das Modell aus früheren Eingaben gelernt hat, oder auf die gestiegene Größe und den visuellen Input.
Es lassen sich jedoch weiterhin neue Beispiele konstruieren, um das Modell zu verwirren, indem man sich Objekte mit überraschenden Eigenschaften ausdenken, die dem Modell wahrscheinlich noch nicht begegnet sind. GPT-4 sagt zum Beispiel, dass eine Tasse mit abgeschnittenem Boden besser geeignet ist, Wasser aufzunehmen, als eine Glühbirne mit abgeschnittenem Boden.
Ein Modell, das Zugang zu Bildern hat, könnte so etwas sein wie ein Kind, das die Sprache - und die Welt - aus dem Fernsehen lernt: Es ist einfacher, als aus dem Radio zu lernen, aber ein menschenähnliches Verständnis erfordert die entscheidende Möglichkeit, mit der Welt zu interagieren.
Jüngste Forschungsarbeiten haben diesen Ansatz verfolgt und Sprachmodelle darauf trainiert, physikalische Simulationen zu erstellen, mit der physischen Umgebung zu interagieren und sogar Aktionspläne für Roboter zu entwickeln. Es ist vielleicht noch ein weiter Weg bis zum verkörperten Sprachverständnis, aber diese Art von multisensorischen interaktiven Projekten sind entscheidende Schritte auf dem Weg dorthin.
ChatGPT ist ein faszinierendes Werkzeug, das zweifellos für gute - und nicht so gute - Zwecke eingesetzt werden wird. Aber man sollte nicht glauben, dass es die Worte, die es spricht, versteht, geschweige denn, dass es empfindungsfähig ist.