Inhalt
summary Zusammenfassung

Jim Fan, leitender Forscher bei Nvidia, prognostiziert einen Durchbruch bei Roboter-Grundlagenmodellen in naher Zukunft. Er sieht in humanoiden Robotern großes Potenzial für den Alltag.

Anzeige

Jim Fan, Senior Research Scientist bei Nvidia, erwartet in den kommenden zwei bis drei Jahren einen entscheidenden Fortschritt in der Robotik. In einem Interview mit Sequoia Capital äußerte er die Hoffnung auf einen "GPT-3-Moment für die Robotik" - einen Durchbruch bei Roboter-Grundlagenmodellen, vergleichbar mit dem Erfolg von GPT-3 in der Sprachverarbeitung.

Fan leitet bei Nvidia die Forschung zu verkörperter künstlicher Intelligenz (Embodied AI). Seine Gruppe arbeitet am Projekt Groot, Nvidias Versuch, Grundlagenmodelle für humanoide Roboter zu entwickeln.

Forschungsdurchbruch in den nächsten zwei bis drei Jahren

"Ich hoffe, dass wir in den nächsten zwei bis drei Jahren einen Forschungsdurchbruch bei Roboter-Grundlagenmodellen sehen werden", sagte Fan. Er betonte jedoch, dass der Weg bis zum Einsatz von Robotern im Alltag länger sein werde: "Um Roboter in den Alltag der Menschen zu bringen, gibt es viele Aspekte jenseits der Technik. Die Roboter müssen erschwinglich und in Massenproduktion herstellbar sein. Wir brauchen auch Sicherheit für die Hardware sowie Datenschutz und Regulierung."

Anzeige
Anzeige

Fan sieht in humanoiden Robotern großes Potenzial: "Die Welt ist auf die menschliche Verkörperung ausgerichtet. Alle unsere Restaurants, Fabriken, Krankenhäuser sowie Geräte und Werkzeuge sind für die menschliche Form und die menschlichen Hände konzipiert."

Laut Fan könnte ein ausreichend guter humanoider Roboter prinzipiell jede Aufgabe ausführen, die ein Mensch bewältigen kann. Er glaubt, dass in den nächsten zwei bis drei Jahren das Ökosystem für humanoide Hardware reif sein wird.

Nvidia verfolgt bei der Entwicklung von Roboter-KI eine Strategie, die drei Arten von Daten kombiniert: Daten aus dem Internet, Simulationsdaten und Daten von echten Robotern. Fan betont die Stärken und Schwächen jedes Ansatzes und sieht in der Kombination den Schlüssel zum Erfolg.

Der Forscher vergleicht die aktuelle Situation in der Robotik mit der Entwicklung in der Verarbeitung natürlicher Sprache vor dem Durchbruch von GPT-3. Er erwartet eine ähnliche Entwicklung: von spezialisierten Modellen hin zu einem generellen Ansatz, der später wieder für spezifische Aufgaben angepasst werden kann.

Als größte Herausforderung sieht Fan derzeit die Datenbeschaffung. "Wir haben die Grenzen der Transformer-Architektur noch nicht ausgereizt", meint er. Sobald die Daten-Pipeline ausgereift sei, könne man die Modelle skalieren.

Empfehlung

Roboter-Agenten trainieren in allen Welten

Fan erklärt sein Konzept eines "Foundation Agent": "Für den Foundation Agent gibt es drei Achsen, über die er generalisieren wird: Erstens die Fähigkeiten, die er ausführen kann, zweitens die Verkörperungen oder Körperformen, die er kontrollieren kann, und drittens die Welt, die Realitäten, die er beherrschen kann."

Fans Gruppe arbeitet daher an Techniken wie "Eureka", bei der ein Sprachmodell verwendet wird, um Belohnungsfunktionen für das Robotertraining zu generieren. Dies automatisiert einen bisher aufwändigen manuellen Prozess.

Neben der physischen Welt forscht Fans Team dabei auch an KI-Agenten für virtuelle Welten wie Computerspiele. Fan sieht Parallelen zwischen beiden Bereichen und strebt langfristig ein einziges Modell an, das sowohl virtuelle als auch physische Agenten steuern kann.

"So viele intelligente Roboter wie iPhones"

Fan zitiert auch seinen Chef Jensen Huang, CEO von Nvidia: "Alles, was sich bewegt, wird irgendwann autonom sein." Er fügt hinzu: "Wenn wir glauben, dass es in 10 Jahren oder mehr so viele intelligente Roboter wie iPhones geben wird, dann sollten wir besser heute damit anfangen, daran zu arbeiten."

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Trotz der optimistischen Prognose für die nahe Zukunft sieht Fan noch Herausforderungen. Dazu gehört die Integration von schnellen, unbewussten motorischen Kontrollen (System 1) mit langsameren, bewussten Planungs- und Reasoning-Prozessen (System 2) in einem einzigen Modell.

Bevor Fan zu Nvidia kam, absolvierte er ein Praktikum bei OpenAI und promovierte bei der renommierten KI-Forscherin Fei-Fei Li an der Stanford University.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Jim Fan, leitender Forscher bei Nvidia, erwartet in den nächsten zwei bis drei Jahren einen wichtigen Fortschritt bei Roboter-Grundlagenmodellen. Er vergleicht dies mit dem Erfolg von GPT-3 in der Sprachverarbeitung.
  • Fan sieht großes Potenzial in humanoiden Robotern für den Alltag, da die Welt auf die menschliche Form ausgerichtet ist. Er betont jedoch, dass neben technischen Aspekten auch Fragen der Massenproduktion, Sicherheit und Regulierung geklärt werden müssen.
  • Nvidias Forschungsgruppe kombiniert Daten aus dem Internet, Simulationen und echten Robotern. Sie arbeitet an Techniken wie "Eureka", um das Robotertraining zu automatisieren, und strebt langfristig ein einziges Modell für virtuelle und physische Agenten an.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!