Inhalt
summary Zusammenfassung

Mit BEHAVIOR-1K veröffentlicht die Stanford University einen neuen Benchmark für Robotik. Ziel ist es, ähnlich wie bei ImageNet oder MMLU in anderen KI-Bereichen, die Forschung auf einheitliche Grundlagen zu stellen.

Anzeige

Der Robotik fehlt bislang ein Standard, um Fortschritt messbar zu machen. Während in der Sprach- und Bildgenerierung Benchmarks wie MMLU oder ImageNet den Wettbewerb und tiefgreifende Innovationen angestoßen haben, definiert in der Robotik bislang fast jede Forschungsgruppe eigene Testbedingungen. Ein Vergleich ist dadurch kaum möglich.

Mit BEHAVIOR-1K will die Stanford Vision and Learning Group nun einen solchen Standard etablieren. Mit beteiligt ist auch KI-Forscherin Fei-Fei Li, bekannt für ihre Arbeit an ImageNet. Der Benchmark umfasst 1.000 realistische Haushaltsaufgaben, die auf Umfragen basieren, in denen Menschen angaben, wobei ihnen Roboter im Alltag am meisten helfen könnten. Zu den Aufgaben zählen komplexe Langzeitszenarien, bei denen Roboter häufig verschiedene Handlungsschritte miteinander verketten müssen, etwa beim Kochen oder Aufräumen.

Anzeige
Anzeige

1.000 Aufgaben in 50 Szenen

Die Simulation bildet über 50 interaktive 3D-Umgebungen ab, darunter Wohnungen, Büros oder Restaurants, und integriert mehr als 10.000 Objekte. Jede Aufgabe wird dabei in der Behavior Domain Definition Language (BDDL) formalisiert, die Anfangs- und Zielbedingungen in symbolischer Logik beschreibt. Über ein sogenanntes "Sampling" werden die Aufgaben dann in spezifische Szenen eingebettet – inklusive der passenden Objekte in ihrer Ausgangs- und Zielkonfiguration.

Die Strukturierung der Objekte erfolgt über eine erweiterte Synset-Hierarchie, die an WordNet angelehnt ist. Dadurch lassen sich Aufgaben flexibel instanziieren: Wird beispielsweise ein Obst-Synset gefordert, kann die Aufgabe konkreten Objekten wie einem Apfel oder einer Orange zugewiesen werden.

Realistische Simulation durch Isaac Sim und OmniGibson

Technische Grundlage ist der von Nvidia entwickelte Simulator Isaac Sim, der auf der Omniverse-Plattform läuft und die Physik-Engine PhysX nutzt. Darauf baut OmniGibson als offene Simulationssoftware der Stanford-Gruppe auf. Sie ermöglicht realistische Interaktionen mit Flüssigkeiten, Stoffen, Hitze und Transparenz sowie das Greifen von weichen und starren Objekten.

Zum Einsatz kommen zahlreiche Roboterplattformen wie Franka, Fetch oder Tiago, die in den interaktiven Szenen Aufgaben ausführen können. Das BEHAVIOR-Dataset enthält die Objekte, Szenen und Partikelsysteme, die für die Aufgaben benötigt werden.

BEHAVIOR Challenge 2025

Parallel zum Benchmark startet die BEHAVIOR Challenge 2025, die Forscherinnen und Forscher dazu einlädt, ihre Methoden auf identischen Aufgaben gegeneinander zu testen. Damit gibt es erstmals ein offizielles Leaderboard, das Fortschritte transparent vergleichbar machen soll – ähnlich wie einst ImageNet in der Computer Vision.

Empfehlung

BEHAVIOR könnte das "hill-climbing signal" sein, das die Robotik benötigt, um echte Fortschritte zu messen, vermutet Jim Fan, Director of AI bei Nvidia und Mitentwickler von Robotiksystemen wie Gr00t. Falls sich der Benchmark durchsetzt, könnte er die Grundlage für den Übergang zu alltagstauglichen, generalistisch handlungsfähigen Robotern schaffen – ein Schritt in Richtung "Physical AGI".

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Stanford University stellt mit BEHAVIOR-1K einen neuen Benchmark für Robotik vor, der 1.000 Haushaltsaufgaben in über 50 interaktiven 3D-Umgebungen abbildet und auf realen Bedürfnissen von Menschen basiert.
  • Der Standard nutzt die Simulatoren Isaac Sim von Nvidia und OmniGibson von Stanford, um realistische Interaktionen mit über 10.000 Objekten zu ermöglichen; Aufgaben werden formalisiert und flexibel in verschiedene Szenarien eingebettet.
  • Mit der BEHAVIOR Challenge 2025 startet ein offizielles Leaderboard, das Fortschritte vergleichbar macht und laut Experten wie Jim Fan von Nvidia das Potenzial hat, der Robotik ein verlässliches Messinstrument für Entwicklungsschritte zu bieten.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!