Anzeige
Skip to content

Elefanten, Tornados, Hochwasser: Waymos neues KI-Weltmodell simuliert Szenarien, die es real kaum gibt

Image description
Waymo

Kurz & Knapp

  • Waymo hat ein generatives Simulationsmodell für autonomes Fahren vorgestellt, das auf Google Deepminds Genie 3 basiert.
  • Das Modell soll Verkehrsszenarien erzeugen, die in der Realität kaum vorkommen – etwa Begegnungen mit Elefanten, Tornados oder überflutete Straßen.
  • Im Gegensatz zu herkömmlichen Simulationsmodellen, die nur mit eigenen Fahrdaten trainiert werden, nutzt das Waymo World Model das breite Weltwissen aus Genie 3 und überträgt es durch Post-Training in 3D-Lidar-Outputs.

Waymo präsentiert ein generatives Simulationsmodell für autonomes Fahren, das auf Google Deepminds Genie 3 basiert. Es soll hyperrealistische Szenarien erzeugen, die in der Realität kaum zu beobachten wären.

Der Robotaxi-Betreiber Waymo hat das Waymo World Model vorgestellt, ein generatives Weltmodell für die Simulation autonomer Fahrsituationen. Es baut auf Genie 3 auf, dem laut Google Deepmind fortschrittlichsten allgemeinen Weltmodell des Unternehmens, und wurde für die spezifischen Anforderungen des Straßenverkehrs angepasst.

"Das starke Weltwissen von Genie 3, das durch sein Vortraining auf einem extrem großen und vielfältigen Satz von Videos erworben wurde, ermöglicht es uns, Situationen zu erkunden, die von unserer Flotte nie direkt beobachtet wurden", schreibt Waymo.

Waymo bezeichnet Simulation als eine der drei zentralen Säulen seines Sicherheitsansatzes. Der Waymo Driver habe bislang fast 200 Millionen vollautonome Meilen zurückgelegt, navigiere aber Milliarden von Meilen in virtuellen Welten, bevor er Szenarien auf öffentlichen Straßen begegne.

Anzeige
DEC_D_Incontent-1

Waymo argumentiert, dass die Simulation seltener Szenarien den Waymo Driver besser auf komplexe Situationen vorbereite. Konkrete Benchmark-Ergebnisse oder unabhängige Evaluierungen des Modells nennt das Unternehmen in seiner Ankündigung allerdings nicht.

Vortrainiertes Weltwissen statt reiner Fahrdaten

Die meisten Simulationsmodelle in der Branche werden laut Waymo ausschließlich mit den eigenen Fahrdaten trainiert, was das System auf die begrenzte eigene Erfahrung beschränkt. Das Waymo World Model geht einen anderen Weg: Es nutzt das breite Weltwissen, das Genie 3 durch Vortraining auf einem extrem großen und diversen Videodatensatz erworben hat.

Durch spezialisiertes Post-Training wird dieses 2D-Videowissen in 3D-Lidar-Outputs übertragen, die auf Waymos eigene Hardware-Suite zugeschnitten sind. Das Modell generiert dabei sowohl Kamera- als auch Lidar-Daten. Während Kameras visuelle Details abbilden, liefert Lidar präzise Tiefeninformationen als komplementäres Signal.

Dadurch soll das System Situationen simulieren können, die von der Waymo-Flotte nie direkt beobachtet wurden: etwa eine Begegnung mit einem Elefanten, einen Tornado, eine von Hochwasser überflutete Wohngegend oder Schnee auf tropischen Straßen mit Palmen.

Anzeige
DEC_D_Incontent-2

Drei Steuerungsmechanismen für kontrafaktische Szenarien

Ein zentrales Merkmal des Waymo World Model ist laut dem Unternehmen die feingranulare Steuerbarkeit über drei Mechanismen: Die Fahraktionssteuerung ermöglicht kontrafaktische "Was wäre wenn"-Szenarien, etwa ob der Waymo Driver in einer Situation selbstbewusster hätte fahren können. Im Gegensatz zu rein rekonstruktiven Methoden wie 3D-Gaussian-Splats, die bei abweichenden Routen visuell zusammenbrechen, halte das generative Modell dabei Realismus und Konsistenz aufrecht.

Die Szenen-Layout-Steuerung erlaubt die Anpassung von Straßenführungen, Ampelzuständen und dem Verhalten anderer Verkehrsteilnehmer. Die Sprachsteuerung ist laut Waymo das flexibelste Werkzeug: Per Textprompt lassen sich Tageszeit, Wetter oder komplett synthetische Szenen generieren.

Eine weitere Fähigkeit des Modells: Es kann gewöhnliche Videos, etwa von Dashcams oder Mobiltelefonen, in multimodale Simulationen umwandeln. Diese zeigen, wie der Waymo Driver die jeweilige Szene mit seinen Sensoren wahrnehmen würde.

Aus einem einfachen Dashcam-Video vom Arches National Park in Utah erzeugt das Waymo World Model eine vollständige multimodale Simulation mit Mehrkamera-Ansicht und 3D-Lidar-Punktwolke.
Aus einem einfachen Dashcam-Video (oben) erzeugt das Waymo World Model eine vollständige Simulation mit Mehrkamera-Ansicht und 3D-Lidar-Punktwolke (unten). | Bild: Waymo

Längere Simulationen, etwa das Aushandeln einer Durchfahrt in einer engen Gasse, seien rechenintensiver und schwieriger stabil zu halten. Dafür hat Waymo eine effizientere Variante des Modells entwickelt, die längere Szenen mit laut eigenen Angaben "dramatisch reduziertem Rechenaufwand" bei noch immer hoher Qualität ermöglicht. Damit sollen großangelegte Simulationen möglich werden.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Waymo