Inhalt
summary Zusammenfassung

Das britische Start-up Wayve präsentiert mit PRISM-1 ein neues KI-Modell zur realistischen Rekonstruktion dynamischer Szenen aus Videodaten. Es soll die Simulation für das autonome Fahren auf ein neues Level heben.

Das Londoner Start-up Wayve hat ein KI-Modell namens "PRISM-1" entwickelt, das dreidimensionale Straßenszenen mit der vierten Dimension Zeit aus Fahrzeugkamera-Videos rekonstruieren kann. Das Unternehmen nutzt dazu Technologien ähnlich zu den neuronalen Repräsentationen, die NeRFs und Gaussian Splatting ermöglichen.

Die Technologie soll detailliertere und realistischere Simulationen von Verkehrsszenarien ermöglichen, mit denen Wayve seine KI-Modelle für autonomes Fahren schneller trainieren und testen will.

Video: Wayve

Anzeige
Anzeige

Kernstück von PRISM-1 ist ein flexibles Verfahren, das auch komplexe städtische Szenen mit vielen bewegten Elementen wie Fußgängern, Radfahrern und anderen Fahrzeugen erfassen kann. Dazu zählen blinkende Ampeln, Brems- und Blinklichter an Autos oder Scheibenwischer.

Bisherige Simulationen für selbstfahrende Autos stießen hier an Grenzen, weil es sehr aufwendig ist, alle dynamischen Interaktionen und Lichtverhältnisse in einem 3D-Modell abzubilden.

PRISM-1 lernt statische und dynamische Elemente

PRISM-1 trennt in einem ersten Schritt statische von dynamischen Elementen in den Videos, und zwar selbstüberwacht, also ohne manuelle Annotationen oder vordefinierte Modelle. Das spart laut Wayve viel Aufwand.

Dann folgt das System implizit den Bewegungen in der Szene und gleicht sie mit der 3D-Geometrie ab. Für ein genaues Verständnis fließen Informationen zu Tiefe, Oberflächennormalen und optischem Fluss ein sowie eine semantische Segmentierung, also eine Zuordnung von Bildpunkten zu Objektklassen.

Basis dafür sind Techniken des "Visual Reasoning", also des logischen Schlussfolgerns aus Bildern. Explizite 3D-Annotationen oder zusätzliche Sensoren wie Lidar sind nicht nötig.

Empfehlung

PRISM-1 kann auch alternative Szenen durchspielen

Die Beispielvideos zeigen rekonstruierte Straßenszenen aus London und Mountain View in Kalifornien. PRISM-1 kann die Kamera frei schwenken, um die Szene aus verschiedenen Blickwinkeln darzustellen. Außerdem sind Zeitsprünge möglich, also beispielsweise ein stehendes Fahrzeug, während sich Fußgänger und Autos um es herum bewegen.

Video: Wayve

Das ist wichtig, um das Verhalten eines Fahrmodells in Gefahrensituationen zu testen, die abseits der ursprünglich aufgenommenen Fahrstrecke liegen. Die Darstellung ist laut Wayve auch bei schwierigen Lichtverhältnissen wie Reflexionen in einem Tunnel stabil.

Neben dem reinen Kamerabild zeigen die Rekonstruktionen Tiefenkarten und die Geschwindigkeitsvektoren bewegter Objekte. Auch das gezielte Entfernen einzelner Elemente wie Fußgänger ist möglich, um alternative Szenarien durchzuspielen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Video: Wayve

Autonome Autos sollen im "Ghost Gym" mit PRISM-1 trainieren

Wayve will PRISM-1 in seinen Fahrsimulator "Ghost Gym" integrieren, den das Unternehmen im Dezember 2023 vorgestellt hatte. Dort sollen die realistischeren Umgebungen das Training und die Evaluation der Fahrmodelle beschleunigen.

Vom verbesserten Simulator verspricht sich Wayve schnellere Entwicklungszyklen für seine KI. Gleichzeitig wolle man die Modelle an unterrepräsentierte Szenarien anpassen, etwa Fahrten in seltenen Wetterbedingungen oder neuen Regionen. Auch das effiziente Testen des Fahrverhaltens auf anderen Fahrzeugtypen oder mit anderen Kameras soll leichter werden.

Im Zuge seiner Arbeit an PRISM-1 hat Wayve den Referenzdatensatz "WayveScenes101" erstellt und veröffentlicht. Er enthält Beispielszenen von Straßen in Großbritannien und den USA mit komplexen, dynamischen Elementen. Damit wollen die Forscher Innovationen bei der Rekonstruktion und Synthese neuer Perspektiven fördern.

Neben PRISM-1 hat das Unternehmen bereits früher mit GAIA-1 auch ein generatives KI-Modell vorgestellt, das aus Text, Bild, Video und Aktionsdaten synthetische Videos einer Vielzahl von Verkehrssituationen erzeugt. Mit Lingo-1 und Lingo-2 hat es außerdem multimodale Sprachmodelle in der Entwicklung, die maschinelles Sehen mit textbasierter Logik kombinieren, um Fahrentscheidungen zu erklären.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Londoner Start-up Wayve hat ein KI-Modell namens PRISM-1 entwickelt, das dreidimensionale Straßenszenen mit dynamischen Elementen wie Ampeln, Fahrzeugen und Fußgängern aus Videodaten rekonstruieren kann, um realistischere Simulationen für das Training autonomer Fahrzeuge zu ermöglichen.
  • PRISM-1 trennt selbstüberwacht statische von dynamischen Elementen in den Videos und nutzt Techniken des "Visual Reasoning", um die Bewegungen in der Szene implizit zu verfolgen und mit der 3D-Geometrie abzugleichen, ohne explizite Annotationen oder zusätzliche Sensoren zu benötigen.
  • Wayve will PRISM-1 in seinen Fahrsimulator "Ghost Gym" integrieren, um die Entwicklungszyklen für seine KI-Fahrmodelle zu beschleunigen, sie an unterrepräsentierte Szenarien anzupassen und das Testen auf anderen Fahrzeugtypen oder mit anderen Kameras zu erleichtern. Zudem hat das Unternehmen den Referenzdatensatz "WayveScenes101" veröffentlicht.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!