Forscher testen GPT-4-Vision für autonomes Fahren

Kann OpenAIs GPT-4-Vision autonomes Fahren verbessern? Chinesische Forschende haben das Bild-Sprach-Modell auf die Straße geschickt.

Bild-Sprache-Modelle wie OpenAIs GPT-4 Vision (GPT-4V) könnten, wenn es nach Unternehmen wie Nvidia geht, in Zukunft ein zentraler Baustein für maschinelles Sehen in industriellen Anwendungen, in der Robotik und beim autonomen Fahren werden. In einer neuen Studie hat ein Team aus dem Shanghai Artificial Intelligence Laboratory, GigaAI, der East China Normal University, der Chinese University of Hong Kong und WeRide.ai GPT-4V für autonome Fahrszenarien getestet.

GPT-4V verfügt im Gegensatz zum reinen Sprachmodell GPT-4 über ausgeprägte Fähigkeiten im Bereich der Bilderkennung und kann beispielsweise Inhalte beschreiben oder Kontext liefern. Das Team hat GPT-4V in einer Reihe von Aufgaben getestet, von der einfachen Szenenerkennung bis hin zur komplexen Kausalanalyse und Echtzeit-Entscheidungsfindung unter verschiedenen Bedingungen.

GPT-4 Vision übertrifft bei einigen Anwendungen derzeitigen Systeme

Die Ergebnisse zeigen, so das Team, dass GPT-4V im Vergleich zu bestehenden autonomen Systemen eine teilweise überlegene Leistung beim Szenenverständnis und bei der Analyse von Grenzfällen - so genannten Corner Cases - aufweist. Das System hat auch gezeigt, dass es in der Lage ist, Szenarien außerhalb der Verteilung zu bewältigen, Absichten zu erkennen und informierte Entscheidungen in realen Fahrsituationen zu treffen.

Gleichzeitig zeigt das Modell Schwächen in Bereichen, die für das autonome Fahren besonders relevant sind, insbesondere in der räumlichen Wahrnehmung. So zeigt GPT-4V beispielsweise schwache Ergebnisse bei der Richtungsunterscheidung und erkennt nicht alle Ampeln.

Team testet GPT-4 Vision mit Straßenaufnahmen

Konkret wurden die Fähigkeiten des Modells in verschiedenen Aspekten des autonomen Fahrens getestet. Im Bereich des Szenenverständnisses war GPT-4V beispielsweise in der Lage, Wetter- und Lichtverhältnisse zu erkennen, Ampeln und Verkehrsschilder in verschiedenen Ländern zu identifizieren und die Positionen und Handlungen anderer Verkehrsteilnehmer auf Fotos, die von verschiedenen Kameratypen aufgenommen wurden, zu schätzen.

Grenzfälle, wie beispielsweise bei einem Bild eines notgelandeten Flugzeugs auf einer Straße oder einer komplexen Baustelle, sowie das Verstehen und Analysieren von Panoramabildern und zeitlich aufeinanderfolgenden Bildern konnte GPT-4V ebenfalls verarbeiten. Es war auch in der Lage, Straßenbilder mit Bildern eines Navigationssystems zu verknüpfen.

In einem abschließenden Test übertrug das Team dem GPT-4V die Aufgabe, als Fahrer zu agieren und Entscheidungen in realen Fahrsituationen auf der Grundlage der Umgebung zu treffen. Das Modell wurde Bild für Bild mit Fahrvideos, wichtigen Fahrzeuggeschwindigkeiten und anderen relevanten Informationen gefüttert und musste die erforderlichen Aktionen ausführen und seine Entscheidungen begründen. Das System bewältigte auch diese Aufgabe - mit einigen Fehlern.

GPT-4 Vision ist vielversprechend, zeigt aber gefährliche Schwächen

Das Team sieht in Systemen wie GPT-4V ein erhebliches Potenzial, bestehende autonome Fahrsysteme in Aspekten des Szenenverständnisses, der Intentionserkennung anderer Verkehrsteilnehmer und der Entscheidungsfindung zu übertreffen. Einschränkungen in der räumlichen Wahrnehmung und Fehler bei der Erkennung von Ampeln führen jedoch dazu, dass GPT-4V allein in einem solchen Szenario derzeit nicht geeignet ist.

Empfehlung

KI-Forschung

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

Zusätzliche Forschung sei notwendig, um die Robustheit und Anwendbarkeit von GPT-4V und anderen Bild-Sprache-Modelle in verschiedenen Fahrsituationen und -bedingungen zu erhöhen. Weiter Informationen und alle Daten sind auf GitHub verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Forscher testen GPT-4-Vision für autonomes Fahren

GPT-4 Vision übertrifft bei einigen Anwendungen derzeitigen Systeme

Team testet GPT-4 Vision mit Straßenaufnahmen

GPT-4 Vision ist vielversprechend, zeigt aber gefährliche Schwächen

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

KI-System "StreamDiT" generiert Livestream-Videos aus Textbeschreibungen

KI-Modelle lassen sich von Fail-Videos in die Irre führen

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Forscher testen GPT-4-Vision für autonomes Fahren

GPT-4 Vision übertrifft bei einigen Anwendungen derzeitigen Systeme

Team testet GPT-4 Vision mit Straßenaufnahmen

GPT-4 Vision ist vielversprechend, zeigt aber gefährliche Schwächen

Artikel teilen

Bankverbindung