Inhalt
summary Zusammenfassung

KI-Modelle für autonomes Fahren müssen anhand von Videos unzählige Verkehrssituationen lernen, die sich innerhalb und außerhalb der Verkehrsregeln abspielen. Doch das Trainingsmaterial ist ein Engpass.

Synthetische Daten könnten helfen, diesen Engpass für alle Hersteller zu entschärfen, auch für solche, die noch keine großen Flotten im Realverkehr haben. Genau diese Aufgabe soll das generative KI-Modell GAIA-1 des 2017 gegründeten britischen Unternehmens Wayve übernehmen, das sich auf Deep-Learning-Verfahren für autonome Fahrmodelle spezialisiert hat. GAIA steht für "Generative Artificial Intelligence for Autonomy".

Ein multimodales "Weltmodell" für den Straßenverkehr

GAIA-1 wurde mit einem multimodalen Korpus von Wayve trainiert, das reale Fahrdaten enthält, also Videos, Text und Fahrzeugeingaben. Ähnlich wie Sprachmodelle lernen, die nächsten wahrscheinlichen Zeichen in einer Zeichenkette vorherzusagen, lernte GAIA-1, die nächsten Bilder in einer Videosequenz vorherzusagen.

Nach Angaben des Herstellers ist GAIA-1 jedoch kein "standardmäßiges generatives KI-Modell". Vielmehr handele es sich um ein "echtes Weltmodell", das Konzepte des Fahrens wie verschiedene Fahrzeuge und ihre Eigenschaften, Straßen, Gebäude oder Ampeln verstehe und zwischen ihnen unterscheiden könne.

Anzeige
Anzeige

Das wahre Wunder von GAIA-1 liegt in seiner Fähigkeit, die generativen Regeln zu manifestieren, die der Welt, in der wir leben, zugrunde liegen. Durch umfangreiches Training mit einer Vielzahl von Fahrdaten synthetisiert unser Modell die inhärenten Strukturen und Muster der realen Welt und kann so bemerkenswert realistische und vielfältige Fahrszenen erzeugen.

Wayve

Als Beweis für diese steile These führt Wayve an, dass GAIA-1 aus wenigen Sekunden Videoeingabe "lange plausible Zukünfte" generieren könne. Je weiter die KI in die Zukunft blicke, desto unwichtiger werde die kurze Eingabe. Die später generierten Szenen enthielten keine Inhalte des Ausgangsmaterials mehr.

"Das zeigt, dass GAIA-1 die Regeln versteht, die der Welt zugrunde liegen, in der wir leben", schreibt Wayve. Auch das simulierte Fahrverhalten sei realistisch, ebenso wie die Umgebung mit parkenden und fahrenden Autos.

Das Modell soll viele Einstellmöglichkeiten sowohl für das fahrende Fahrzeug als auch für die Umgebung bieten. So soll es etwa Fahrsituationen simulieren, die in den Trainingsdaten nicht enthalten sind. Dies sei hilfreich, um etwa gefährliche Fahrsituationen nachzustellen, die zur Evaluierung von KI-Modellen für das autonome Fahren genutzt werden könnten. GAIA-1 setzt auf früherer Forschung zum Thema Model-Based Imitation Learning for Urban Driving auf.

Text-zu-Verkehr

GAIA-1 kann in natürlicher Sprache angewiesen werden, bestimmte Szenen zu erzeugen, wie im folgenden Video eine Navigation zwischen mehreren Bussen.

Auch wenn eine Szene bereits läuft, kann sie nachträglich durch Texteingabe angepasst werden. Im folgenden Video führt der Prompt "It’s night, and we have turned on our headlights" zu einer generierten Nachtfahrt.

Empfehlung

Wayve beschreibt das eigene Modell als "eine einzigartige Möglichkeit, autonome Systeme besser zu trainieren, sodass sie in der Lage sind, komplexe reale Szenarien effizienter zu navigieren" und will es für die Weiterentwicklung seiner eigenen KI-Modelle für autonomes Fahren nutzen. Wayve möchte in den kommenden Monaten weitere Informationen über GAIA-1 veröffentlichen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Daten sind ein Engpass beim Training von KI-Modellen für das autonome Fahren. Synthetische Daten können hier Abhilfe schaffen.
  • Das generative KI-Modell GAIA-1 ist in der Lage, auf der Basis von nur wenigen Sekunden Eingabe plausible Verkehrsvideos von mehreren Minuten Länge zu erzeugen, die für das Training von KI-Modellen verwendet werden können.
  • Es kann auch spezifische Szenen auf der Grundlage von Texteingaben erzeugen, z. B. Fahrmanöver mit vielen Bussen auf der Straße oder falsches Fahren.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!