Das britische Start-up Wayve präsentiert mit PRISM-1 ein neues KI-Modell zur realistischen Rekonstruktion dynamischer Szenen aus Videodaten. Es soll die Simulation für das autonome Fahren auf ein neues Level heben.
Das Londoner Start-up Wayve hat ein KI-Modell namens "PRISM-1" entwickelt, das dreidimensionale Straßenszenen mit der vierten Dimension Zeit aus Fahrzeugkamera-Videos rekonstruieren kann. Das Unternehmen nutzt dazu Technologien ähnlich zu den neuronalen Repräsentationen, die NeRFs und Gaussian Splatting ermöglichen.
Die Technologie soll detailliertere und realistischere Simulationen von Verkehrsszenarien ermöglichen, mit denen Wayve seine KI-Modelle für autonomes Fahren schneller trainieren und testen will.
Kernstück von PRISM-1 ist ein flexibles Verfahren, das auch komplexe städtische Szenen mit vielen bewegten Elementen wie Fußgängern, Radfahrern und anderen Fahrzeugen erfassen kann. Dazu zählen blinkende Ampeln, Brems- und Blinklichter an Autos oder Scheibenwischer.
Bisherige Simulationen für selbstfahrende Autos stießen hier an Grenzen, weil es sehr aufwendig ist, alle dynamischen Interaktionen und Lichtverhältnisse in einem 3D-Modell abzubilden.
PRISM-1 lernt statische und dynamische Elemente
PRISM-1 trennt in einem ersten Schritt statische von dynamischen Elementen in den Videos, und zwar selbstüberwacht, also ohne manuelle Annotationen oder vordefinierte Modelle. Das spart laut Wayve viel Aufwand.
Dann folgt das System implizit den Bewegungen in der Szene und gleicht sie mit der 3D-Geometrie ab. Für ein genaues Verständnis fließen Informationen zu Tiefe, Oberflächennormalen und optischem Fluss ein sowie eine semantische Segmentierung, also eine Zuordnung von Bildpunkten zu Objektklassen.
Basis dafür sind Techniken des "Visual Reasoning", also des logischen Schlussfolgerns aus Bildern. Explizite 3D-Annotationen oder zusätzliche Sensoren wie Lidar sind nicht nötig.
PRISM-1 kann auch alternative Szenen durchspielen
Die Beispielvideos zeigen rekonstruierte Straßenszenen aus London und Mountain View in Kalifornien. PRISM-1 kann die Kamera frei schwenken, um die Szene aus verschiedenen Blickwinkeln darzustellen. Außerdem sind Zeitsprünge möglich, also beispielsweise ein stehendes Fahrzeug, während sich Fußgänger und Autos um es herum bewegen.
Das ist wichtig, um das Verhalten eines Fahrmodells in Gefahrensituationen zu testen, die abseits der ursprünglich aufgenommenen Fahrstrecke liegen. Die Darstellung ist laut Wayve auch bei schwierigen Lichtverhältnissen wie Reflexionen in einem Tunnel stabil.
Neben dem reinen Kamerabild zeigen die Rekonstruktionen Tiefenkarten und die Geschwindigkeitsvektoren bewegter Objekte. Auch das gezielte Entfernen einzelner Elemente wie Fußgänger ist möglich, um alternative Szenarien durchzuspielen.
Autonome Autos sollen im "Ghost Gym" mit PRISM-1 trainieren
Wayve will PRISM-1 in seinen Fahrsimulator "Ghost Gym" integrieren, den das Unternehmen im Dezember 2023 vorgestellt hatte. Dort sollen die realistischeren Umgebungen das Training und die Evaluation der Fahrmodelle beschleunigen.
Vom verbesserten Simulator verspricht sich Wayve schnellere Entwicklungszyklen für seine KI. Gleichzeitig wolle man die Modelle an unterrepräsentierte Szenarien anpassen, etwa Fahrten in seltenen Wetterbedingungen oder neuen Regionen. Auch das effiziente Testen des Fahrverhaltens auf anderen Fahrzeugtypen oder mit anderen Kameras soll leichter werden.
Im Zuge seiner Arbeit an PRISM-1 hat Wayve den Referenzdatensatz "WayveScenes101" erstellt und veröffentlicht. Er enthält Beispielszenen von Straßen in Großbritannien und den USA mit komplexen, dynamischen Elementen. Damit wollen die Forscher Innovationen bei der Rekonstruktion und Synthese neuer Perspektiven fördern.
Neben PRISM-1 hat das Unternehmen bereits früher mit GAIA-1 auch ein generatives KI-Modell vorgestellt, das aus Text, Bild, Video und Aktionsdaten synthetische Videos einer Vielzahl von Verkehrssituationen erzeugt. Mit Lingo-1 und Lingo-2 hat es außerdem multimodale Sprachmodelle in der Entwicklung, die maschinelles Sehen mit textbasierter Logik kombinieren, um Fahrentscheidungen zu erklären.