Jim Fan, leitender Forscher bei Nvidia, prognostiziert einen Durchbruch bei Roboter-Grundlagenmodellen in naher Zukunft. Er sieht in humanoiden Robotern großes Potenzial für den Alltag.
Jim Fan, Senior Research Scientist bei Nvidia, erwartet in den kommenden zwei bis drei Jahren einen entscheidenden Fortschritt in der Robotik. In einem Interview mit Sequoia Capital äußerte er die Hoffnung auf einen "GPT-3-Moment für die Robotik" - einen Durchbruch bei Roboter-Grundlagenmodellen, vergleichbar mit dem Erfolg von GPT-3 in der Sprachverarbeitung.
Fan leitet bei Nvidia die Forschung zu verkörperter künstlicher Intelligenz (Embodied AI). Seine Gruppe arbeitet am Projekt Groot, Nvidias Versuch, Grundlagenmodelle für humanoide Roboter zu entwickeln.
Forschungsdurchbruch in den nächsten zwei bis drei Jahren
"Ich hoffe, dass wir in den nächsten zwei bis drei Jahren einen Forschungsdurchbruch bei Roboter-Grundlagenmodellen sehen werden", sagte Fan. Er betonte jedoch, dass der Weg bis zum Einsatz von Robotern im Alltag länger sein werde: "Um Roboter in den Alltag der Menschen zu bringen, gibt es viele Aspekte jenseits der Technik. Die Roboter müssen erschwinglich und in Massenproduktion herstellbar sein. Wir brauchen auch Sicherheit für die Hardware sowie Datenschutz und Regulierung."
Fan sieht in humanoiden Robotern großes Potenzial: "Die Welt ist auf die menschliche Verkörperung ausgerichtet. Alle unsere Restaurants, Fabriken, Krankenhäuser sowie Geräte und Werkzeuge sind für die menschliche Form und die menschlichen Hände konzipiert."
Laut Fan könnte ein ausreichend guter humanoider Roboter prinzipiell jede Aufgabe ausführen, die ein Mensch bewältigen kann. Er glaubt, dass in den nächsten zwei bis drei Jahren das Ökosystem für humanoide Hardware reif sein wird.
Nvidia verfolgt bei der Entwicklung von Roboter-KI eine Strategie, die drei Arten von Daten kombiniert: Daten aus dem Internet, Simulationsdaten und Daten von echten Robotern. Fan betont die Stärken und Schwächen jedes Ansatzes und sieht in der Kombination den Schlüssel zum Erfolg.
Der Forscher vergleicht die aktuelle Situation in der Robotik mit der Entwicklung in der Verarbeitung natürlicher Sprache vor dem Durchbruch von GPT-3. Er erwartet eine ähnliche Entwicklung: von spezialisierten Modellen hin zu einem generellen Ansatz, der später wieder für spezifische Aufgaben angepasst werden kann.
Als größte Herausforderung sieht Fan derzeit die Datenbeschaffung. "Wir haben die Grenzen der Transformer-Architektur noch nicht ausgereizt", meint er. Sobald die Daten-Pipeline ausgereift sei, könne man die Modelle skalieren.
Roboter-Agenten trainieren in allen Welten
Fan erklärt sein Konzept eines "Foundation Agent": "Für den Foundation Agent gibt es drei Achsen, über die er generalisieren wird: Erstens die Fähigkeiten, die er ausführen kann, zweitens die Verkörperungen oder Körperformen, die er kontrollieren kann, und drittens die Welt, die Realitäten, die er beherrschen kann."
Fans Gruppe arbeitet daher an Techniken wie "Eureka", bei der ein Sprachmodell verwendet wird, um Belohnungsfunktionen für das Robotertraining zu generieren. Dies automatisiert einen bisher aufwändigen manuellen Prozess.
Neben der physischen Welt forscht Fans Team dabei auch an KI-Agenten für virtuelle Welten wie Computerspiele. Fan sieht Parallelen zwischen beiden Bereichen und strebt langfristig ein einziges Modell an, das sowohl virtuelle als auch physische Agenten steuern kann.
"So viele intelligente Roboter wie iPhones"
Fan zitiert auch seinen Chef Jensen Huang, CEO von Nvidia: "Alles, was sich bewegt, wird irgendwann autonom sein." Er fügt hinzu: "Wenn wir glauben, dass es in 10 Jahren oder mehr so viele intelligente Roboter wie iPhones geben wird, dann sollten wir besser heute damit anfangen, daran zu arbeiten."
Trotz der optimistischen Prognose für die nahe Zukunft sieht Fan noch Herausforderungen. Dazu gehört die Integration von schnellen, unbewussten motorischen Kontrollen (System 1) mit langsameren, bewussten Planungs- und Reasoning-Prozessen (System 2) in einem einzigen Modell.
Bevor Fan zu Nvidia kam, absolvierte er ein Praktikum bei OpenAI und promovierte bei der renommierten KI-Forscherin Fei-Fei Li an der Stanford University.