Anzeige
Skip to content

Räumliche Intelligenz ist die nächste große KI-Herausforderung, sagt Pionierin Fei-Fei Li

Image description
World Labs

KI-Pionierin Fei-Fei Li sieht räumliche Intelligenz als den nächsten großen Durchbruch: Nur mit einem echten Verständnis für Raum, Bewegung und physikalische Zusammenhänge könnten Maschinen zu kreativen und handlungsfähigen Partnern werden.

Fast eine halbe Milliarde Jahre, nachdem die Evolution die ersten Formen räumlicher Intelligenz in Tieren hervorgebracht hat, steht die Menschheit davor, diese Fähigkeit in Maschinen zu replizieren. So zumindest die Vision von Fei-Fei Li, KI-Pionierin und Stanford-Professorin, die mit dem Aufbau von ImageNet eine der Grundlagen für moderne KI schuf.

In einem ausführlichen Essay beschreibt Li, warum sie räumliche Intelligenz für den Schlüssel zu einem grundlegenden Durchbruch in der KI hält. Eine Überzeugung, der sie auch in ihrem vor etwas mehr als einem Jahr gegründeten Start-up World Labs folgt.

Warum heutige KI die physische Welt nicht versteht

Laut Li haben aktuelle KI-Systeme wie Large Language Models (LLMs) fundamentale Limitationen, wenn es um die Repräsentation und Interaktion mit der physischen Welt geht. Multimodale LLMs schneiden kaum besser als Zufall ab, wenn es darum geht, Distanzen, Orientierungen und Größen zu schätzen. Sie können Objekte nicht mental rotieren, Labyrinthe nicht navigieren und grundlegende Physik nicht vorhersagen.

Anzeige
DEC_D_Incontent-1

„Während heutige hochmoderne KI beim Lesen, Schreiben, Recherchieren und bei der Mustererkennung in Daten brillieren kann, sind diese Modelle in Bezug auf die Repräsentation und Interaktion mit der physischen Welt fundamental eingeschränkt“, so die Forscherin.

Unsere Sicht auf die Welt sei dagegen ganzheitlich: Wir nehmen nicht nur wahr, was wir sehen, sondern auch, wie alles räumlich zusammenhängt, was es bedeutet und warum es wichtig ist.

Räumliche Intelligenz als Gerüst der Kognition

Laut Li ist diese räumliche Intelligenz das Gerüst, auf dem die menschliche Kognition aufbaut. Die Forscherin verweist auf die evolutionäre Entwicklung: Lange bevor Tiere nisten, sich um ihren Nachwuchs kümmern oder Sprache entwickeln konnten, löste die simple Fähigkeit zur Wahrnehmung eine Reise in Richtung Intelligenz aus.

„Viele Wissenschaftler haben die Vermutung angestellt, dass Wahrnehmung und Handlung zur Kernschleife wurden, die die Evolution von Intelligenz antrieb”, schreibt Li.

Anzeige
DEC_D_Incontent-2

Tatsächlich verlassen wir uns im Alltag ständig auf unsere räumliche Intelligenz: Beim Einparken eines Autos, beim Fangen von Schlüsseln oder beim Navigieren durch eine Menschenmenge – all das basiert auf räumlichem Verständnis, für das es keinen sprachlichen Ersatz gibt.

Historische Durchbrüche durch räumliches Denken

Li veranschaulicht die Bedeutung räumlicher Intelligenz mit historischen Beispielen: So berechnete der griechische Gelehrte Eratosthenes den Erdumfang, indem er einen 7-Grad-Winkel in Alexandria maß, genau in dem Moment, als die Sonne in Syene keinen Schatten warf. James Hargreaves „Spinning Jenny” revolutionierte die Textilindustrie durch eine räumliche Einsicht: Die Anordnung mehrerer Spindeln nebeneinander in einem einzigen Rahmen ermöglichte es einem Arbeiter, mehrere Fäden gleichzeitig zu spinnen.

Watson und Crick entdeckten die Struktur der DNA, indem sie physische 3D-Modelle der Moleküle bauten und Metallplatten und Drähte manipulierten, bis die räumliche Anordnung der Basenpaare passte. „In jedem Fall trieb räumliche Intelligenz die Zivilisation voran, als Wissenschaftler und Erfinder Objekte manipulieren, Strukturen visualisieren und über physische Räume nachdenken mussten – nichts davon kann allein in Textform erfasst werden”, so Li.

Weltmodelle als Lösung

Um räumlich intelligente KI zu entwickeln, sei laut Li etwas Ambitionierteres als LLMs nötig: Weltmodelle. Diese neue Art generativer Modelle soll das Verstehen, Denken, Generieren und die Interaktion mit semantisch, physikalisch, geometrisch und dynamisch komplexen Welten ermöglichen – weit jenseits der Reichweite heutiger LLMs.

Li definiert Weltmodelle durch drei essenzielle Fähigkeiten: Erstens müssen sie generativ sein und Welten mit perzeptueller, geometrischer und physikalischer Konsistenz erzeugen können. Zweitens müssen sie multimodal sein und Eingaben in vielfältigen Formen verarbeiten können, sei es in Form von Bildern, Videos, Tiefenkarten, Textanweisungen oder Gesten. Zudem müssen sie interaktiv sein und den nächsten Zustand der Welt basierend auf Eingabeaktionen ausgeben können.

„Der Umfang dieser Herausforderung übertrifft alles, was KI bisher konfrontiert hat”, so Li. Während Sprache ein rein generatives Phänomen menschlicher Kognition ist, spielen Welten nach viel komplexeren Regeln.

Technische Hürden und Forschungsschwerpunkte

Laut Li arbeiten die Forschungsteams bei World Labs daher an mehreren fundamentalen Herausforderungen. So sei es seit langem ein zentrales Ziel der Weltmodell-Forschung, eine universelle Aufgabenfunktion für das Training zu definieren, die so einfach und elegant ist wie die Next-Token-Prediction bei LLMs. Aufgrund der Komplexität der Input- und Output-Räume ist eine solche Funktion jedoch schwieriger zu formulieren.

Beim Training benötigen Weltmodelle zudem weit komplexere Daten als für die Textkuratierung von Sprachmodellen. Die vielversprechende Nachricht ist, dass massive Datenquellen bereits existieren. Internet-Sammlungen von Bildern und Videos stellen reichhaltiges und leicht zugängliches Trainingsmaterial dar. Die Herausforderung besteht darin, Algorithmen zu entwickeln, die tiefere räumliche Informationen aus diesen zweidimensionalen Signalen extrahieren können.

Auch bei der Modellarchitektur sieht Li Forschungsbedarf jenseits aktueller MLLM- und Video-Diffusions-Paradigmen. Beide tokenisieren Daten typischerweise in 1D- oder 2D-Sequenzen, was einfache räumliche Aufgaben unnötig schwierig macht. Alternative Architekturen, die 3D- oder 4D-bewusste Methoden für Tokenisierung, Kontext und Gedächtnis nutzen, könnten hier Abhilfe schaffen.

Li ist mit ihrer Vision nicht allein: Das Münchner Start-up Spaitial entwickelt sogenannte Spatial Foundation Models (SFMs), die sowohl reale als auch imaginäre 3D-Welten aus Text oder Bildern erzeugen und verstehen können sollen. SFMs arbeiten direkt auf 3D-Strukturen wie Geometrie, Materialität und physikalischen Eigenschaften und sollen ein physikalisch konsistentes Verständnis von Raum und Zeit entwickeln.

Räumliche Intelligenz für wissenschaftliche Anwendungen

World Labs selbst hat kürzlich Marble als ersten Schritt mit einer begrenzten Anzahl von Nutzern geteilt. Nach eigenen Angaben ist dies das erste Weltmodell überhaupt, das durch multimodale Eingaben dazu gebracht werden kann, konsistente 3D-Umgebungen zu generieren und aufrechtzuerhalten. In der Praxis ist liegen aber auch hier Anspruch und Realität immer noch weit auseinander.

Laut Li zielen Modelle wie Marble auf Kreative ab, die Robotik stelle aber einen mittelfristigen, wenn auch ambitionierten, Horizont dar. Die transformativsten wissenschaftlichen Anwendungen werden länger dauern, versprechen laut der Forscherin aber tiefgreifende Auswirkungen auf das menschliche Wohlergehen. Räumlich intelligente Systeme sollen Experimente simulieren, Hypothesen parallel testen und Umgebungen erforschen können, die für Menschen unzugänglich sind.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Substack

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren