Forscher wollen KI Sprache lernen lassen wie ein Kleinkind

3. Februar 2024 Matthias Bastian

a messy living room with children's toys, as seen through the video camera eyes of a small robot in a computer vision glitch style

Forscher der New York University haben eine künstliche Intelligenz entwickelt, die Sprache ähnlich wie ein Kleinkind lernt. Die KI nutzte Videoaufnahmen aus der Perspektive eines Kindes, um grundlegende Aspekte der Sprachentwicklung zu verstehen.

Heutige KI-Systeme verfügen über beeindruckende Fähigkeiten, lernen aber ineffizient: Sie benötigen Millionen von Beispielen und verbrauchen enorme Mengen an Rechenleistung. Dabei entwickeln sie wahrscheinlich kein wirkliches Verständnis der Dinge, wie es Menschen vermutlich haben.

Eine KI, die wie ein Kind lernen könnte, wäre in der Lage, Bedeutungen zu verstehen, auf neue Situationen zu reagieren und aus neuen Erfahrungen zu lernen. Wenn KI ähnlich wie Menschen lernen würde, stünde uns eine neue Generation Künstlicher Intelligenz bevor, die schneller, effizienter und vielseitiger wäre.

KI lernt, visuelle Reize mit Wörtern zu verknüpfen

In einer im Wissenschaftsmagazin Science veröffentlichten Studie haben Forscher der New York University untersucht, wie Kleinkinder Wörter mit bestimmten Objekten oder visuellen Konzepten verknüpfen.

Das Forscherteam nutzte dazu Videoaufnahmen aus der Perspektive eines Kindes im Alter von 6 bis 25 Monaten, um ein "relativ generisches neuronales Netz" zu trainieren.

Die KI mit dem Namen "Child's View for Contrastive Learning" (CVCL) verarbeitete 61 Stunden dieser visuellen und sprachlichen Daten, die ebenfalls im Kontext der visuellen Szene aufgenommen wurden. Zu den Sprachdaten gehören etwa Aussagen der Eltern des Kindes über ein Objekt, das im Video zu sehen ist.

Anhand dieser Daten lernte das System, Eigenschaften und Verbindungen zwischen verschiedenen Sinnesmodalitäten herzustellen, um die Bedeutung von Wörtern aus der visuellen Umgebung des Kindes zu lernen.

Die KI konnte viele Wort-Objekt-Zuordnungen, die in der Alltagserfahrung des Kindes vorkamen, mit der gleichen Genauigkeit lernen wie eine KI, die auf 400 Millionen Bilder mit Bildunterschriften aus dem Internet trainiert worden war. Sie war auch in der Lage, auf neue visuelle Objekte zu verallgemeinern und ihre visuellen und sprachlichen Konzepte in Einklang zu bringen.

Die Ergebnisse zeigten, dass grundlegende Aspekte der Wortbedeutung aus der Erfahrung des Kindes gelernt werden können, so die Forscher. Ob dies zu einem tatsächlichen Verständnis führt und wie leicht und in welchem Ausmaß eine Verallgemeinerung möglich ist, bleibt abzuwarten.

Unser Modell erwirbt viele Wort-Referenz-Assoziationen, die in der alltäglichen Erfahrung des Kindes vorhanden sind, ermöglicht eine Zero-Shot-Generalisierung auf neue visuelle Referenzen und gleicht die visuellen und sprachlichen Begriffssysteme des Kindes an. Diese Ergebnisse zeigen, wie kritische Aspekte der grundlegenden Wortbedeutung durch gemeinsame Repräsentation und assoziatives Lernen aus dem Input des Kindes gelernt werden können.

Aus dem Paper

Die Forscher wollen nun herausfinden, was nötig ist, um das Modelllernen noch besser an die frühe Spracherwerbsphase von Kindern anzupassen. Möglicherweise müssen mehr Daten zur Verfügung gestellt werden, oder das Modell muss auf die Blicke der Eltern achten, oder es muss ein Gefühl für die Festigkeit von Objekten haben, etwas, das Kinder intuitiv verstehen.

Eine Einschränkung der Studie ist, dass die KI nur auf die Erfahrungen eines einzigen Kindes trainiert wurde. Außerdem war die KI nur in der Lage, einfache Namen und Bilder zu lernen, hatte aber Schwierigkeiten mit komplexeren Wörtern und Konzepten. Es bleibt auch unklar, wie die KI abstrakte Wörter und Verben lernen könnte, da sie auf visuelle Informationen angewiesen ist, die für diese Wörter nicht existieren.

Yann LeCun, Leiter der KI-Forschung bei Meta, ist einer der Verfechter des Ansatzes, dass wirklich fortgeschrittene KI menschenähnlicher lernen muss und dass die Forschung insbesondere verstehen muss, wie Kinder Sprachen lernen und die Welt verstehen können, und zwar mit weitaus weniger Energie- und Datenverbrauch als heutige KI-Systeme.

Er versucht zunächst, Systeme zu schaffen, die lernen können, wie die Welt funktioniert, ähnlich wie Tierbabys. Diese Systeme sollen in der Lage sein, ihre Umgebung zu beobachten und daraus zu lernen. LeCun arbeitet auch an einer neuen gehirnähnlichen KI-Architektur, um die Grenzen heutiger Systeme zu überwinden und die Systeme stärker in der realen Welt zu verankern.

Quellen:

Science