Mit BEHAVIOR-1K veröffentlicht die Stanford University einen neuen Benchmark für Robotik. Ziel ist es, ähnlich wie bei ImageNet oder MMLU in anderen KI-Bereichen, die Forschung auf einheitliche Grundlagen zu stellen.
Der Robotik fehlt bislang ein Standard, um Fortschritt messbar zu machen. Während in der Sprach- und Bildgenerierung Benchmarks wie MMLU oder ImageNet den Wettbewerb und tiefgreifende Innovationen angestoßen haben, definiert in der Robotik bislang fast jede Forschungsgruppe eigene Testbedingungen. Ein Vergleich ist dadurch kaum möglich.
Mit BEHAVIOR-1K will die Stanford Vision and Learning Group nun einen solchen Standard etablieren. Mit beteiligt ist auch KI-Forscherin Fei-Fei Li, bekannt für ihre Arbeit an ImageNet. Der Benchmark umfasst 1.000 realistische Haushaltsaufgaben, die auf Umfragen basieren, in denen Menschen angaben, wobei ihnen Roboter im Alltag am meisten helfen könnten. Zu den Aufgaben zählen komplexe Langzeitszenarien, bei denen Roboter häufig verschiedene Handlungsschritte miteinander verketten müssen, etwa beim Kochen oder Aufräumen.
1.000 Aufgaben in 50 Szenen
Die Simulation bildet über 50 interaktive 3D-Umgebungen ab, darunter Wohnungen, Büros oder Restaurants, und integriert mehr als 10.000 Objekte. Jede Aufgabe wird dabei in der Behavior Domain Definition Language (BDDL) formalisiert, die Anfangs- und Zielbedingungen in symbolischer Logik beschreibt. Über ein sogenanntes "Sampling" werden die Aufgaben dann in spezifische Szenen eingebettet – inklusive der passenden Objekte in ihrer Ausgangs- und Zielkonfiguration.
Die Strukturierung der Objekte erfolgt über eine erweiterte Synset-Hierarchie, die an WordNet angelehnt ist. Dadurch lassen sich Aufgaben flexibel instanziieren: Wird beispielsweise ein Obst-Synset gefordert, kann die Aufgabe konkreten Objekten wie einem Apfel oder einer Orange zugewiesen werden.
Realistische Simulation durch Isaac Sim und OmniGibson
Technische Grundlage ist der von Nvidia entwickelte Simulator Isaac Sim, der auf der Omniverse-Plattform läuft und die Physik-Engine PhysX nutzt. Darauf baut OmniGibson als offene Simulationssoftware der Stanford-Gruppe auf. Sie ermöglicht realistische Interaktionen mit Flüssigkeiten, Stoffen, Hitze und Transparenz sowie das Greifen von weichen und starren Objekten.
Zum Einsatz kommen zahlreiche Roboterplattformen wie Franka, Fetch oder Tiago, die in den interaktiven Szenen Aufgaben ausführen können. Das BEHAVIOR-Dataset enthält die Objekte, Szenen und Partikelsysteme, die für die Aufgaben benötigt werden.
BEHAVIOR Challenge 2025
Parallel zum Benchmark startet die BEHAVIOR Challenge 2025, die Forscherinnen und Forscher dazu einlädt, ihre Methoden auf identischen Aufgaben gegeneinander zu testen. Damit gibt es erstmals ein offizielles Leaderboard, das Fortschritte transparent vergleichbar machen soll – ähnlich wie einst ImageNet in der Computer Vision.
BEHAVIOR könnte das "hill-climbing signal" sein, das die Robotik benötigt, um echte Fortschritte zu messen, vermutet Jim Fan, Director of AI bei Nvidia und Mitentwickler von Robotiksystemen wie Gr00t. Falls sich der Benchmark durchsetzt, könnte er die Grundlage für den Übergang zu alltagstauglichen, generalistisch handlungsfähigen Robotern schaffen – ein Schritt in Richtung "Physical AGI".