Inhalt
summary Zusammenfassung

Kann OpenAIs GPT-4-Vision autonomes Fahren verbessern? Chinesische Forschende haben das Bild-Sprach-Modell auf die Straße geschickt.

Anzeige

Bild-Sprache-Modelle wie OpenAIs GPT-4 Vision (GPT-4V) könnten, wenn es nach Unternehmen wie Nvidia geht, in Zukunft ein zentraler Baustein für maschinelles Sehen in industriellen Anwendungen, in der Robotik und beim autonomen Fahren werden. In einer neuen Studie hat ein Team aus dem Shanghai Artificial Intelligence Laboratory, GigaAI, der East China Normal University, der Chinese University of Hong Kong und WeRide.ai GPT-4V für autonome Fahrszenarien getestet.

GPT-4V verfügt im Gegensatz zum reinen Sprachmodell GPT-4 über ausgeprägte Fähigkeiten im Bereich der Bilderkennung und kann beispielsweise Inhalte beschreiben oder Kontext liefern. Das Team hat GPT-4V in einer Reihe von Aufgaben getestet, von der einfachen Szenenerkennung bis hin zur komplexen Kausalanalyse und Echtzeit-Entscheidungsfindung unter verschiedenen Bedingungen.

GPT-4 Vision übertrifft bei einigen Anwendungen derzeitigen Systeme

Die Ergebnisse zeigen, so das Team, dass GPT-4V im Vergleich zu bestehenden autonomen Systemen eine teilweise überlegene Leistung beim Szenenverständnis und bei der Analyse von Grenzfällen - so genannten Corner Cases - aufweist. Das System hat auch gezeigt, dass es in der Lage ist, Szenarien außerhalb der Verteilung zu bewältigen, Absichten zu erkennen und informierte Entscheidungen in realen Fahrsituationen zu treffen.

Anzeige
Anzeige

Gleichzeitig zeigt das Modell Schwächen in Bereichen, die für das autonome Fahren besonders relevant sind, insbesondere in der räumlichen Wahrnehmung. So zeigt GPT-4V beispielsweise schwache Ergebnisse bei der Richtungsunterscheidung und erkennt nicht alle Ampeln.

Team testet GPT-4 Vision mit Straßenaufnahmen

Konkret wurden die Fähigkeiten des Modells in verschiedenen Aspekten des autonomen Fahrens getestet. Im Bereich des Szenenverständnisses war GPT-4V beispielsweise in der Lage, Wetter- und Lichtverhältnisse zu erkennen, Ampeln und Verkehrsschilder in verschiedenen Ländern zu identifizieren und die Positionen und Handlungen anderer Verkehrsteilnehmer auf Fotos, die von verschiedenen Kameratypen aufgenommen wurden, zu schätzen.

Grenzfälle, wie beispielsweise bei einem Bild eines notgelandeten Flugzeugs auf einer Straße oder einer komplexen Baustelle, sowie das Verstehen und Analysieren von Panoramabildern und zeitlich aufeinanderfolgenden Bildern konnte GPT-4V ebenfalls verarbeiten. Es war auch in der Lage, Straßenbilder mit Bildern eines Navigationssystems zu verknüpfen.

Bild: ADG@PJLab

In einem abschließenden Test übertrug das Team dem GPT-4V die Aufgabe, als Fahrer zu agieren und Entscheidungen in realen Fahrsituationen auf der Grundlage der Umgebung zu treffen. Das Modell wurde Bild für Bild mit Fahrvideos, wichtigen Fahrzeuggeschwindigkeiten und anderen relevanten Informationen gefüttert und musste die erforderlichen Aktionen ausführen und seine Entscheidungen begründen. Das System bewältigte auch diese Aufgabe - mit einigen Fehlern.

GPT-4 Vision ist vielversprechend, zeigt aber gefährliche Schwächen

Das Team sieht in Systemen wie GPT-4V ein erhebliches Potenzial, bestehende autonome Fahrsysteme in Aspekten des Szenenverständnisses, der Intentionserkennung anderer Verkehrsteilnehmer und der Entscheidungsfindung zu übertreffen. Einschränkungen in der räumlichen Wahrnehmung und Fehler bei der Erkennung von Ampeln führen jedoch dazu, dass GPT-4V allein in einem solchen Szenario derzeit nicht geeignet ist.

Empfehlung

Zusätzliche Forschung sei notwendig, um die Robustheit und Anwendbarkeit von GPT-4V und anderen Bild-Sprache-Modelle in verschiedenen Fahrsituationen und -bedingungen zu erhöhen. Weiter Informationen und alle Daten sind auf GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Chinesische Forscher haben OpenAIs GPT-4 Vision (GPT-4V) in autonomen Fahrszenarien getestet, um das Potenzial von Bild-Sprache-Modellen für das autonome Fahren zu untersuchen.
  • GPT-4V zeigte teilweise überlegene Leistung im Szenenverständnis und bei der Analyse von Grenzfällen im Vergleich zu bestehenden autonomen Systemen, wies aber Schwächen in der räumlichen Wahrnehmung und der Erkennung von Ampeln auf.
  • Die Forschenden sehen Potenzial Bild-Sprachmodellen wie GPT-4V, betonen jedoch, dass zusätzliche Forschung notwendig ist, um die Robustheit und Anwendbarkeit in verschiedenen Fahrsituationen und -bedingungen zu erhöhen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!