Tesla Vision: Weniger Sensoren, mehr Daten und Supercomputer

22. Juni 2021

Teslas KI-Chef gibt auf einem Workshop Einblicke in den Trainingsprozess des neuen Kamera-basierten Ansatzes für Autopilot und den FSD-Computer (Full-Self-Driving).

Ende Mai verkündete Elon Musk den Verzicht auf Radarsysteme vorerst in den US-Modellen der Model 3 und Model Y Serie. Zukünftig wolle der E-Auto-Hersteller rein auf Kamerabasis autonom fahren.

Nun gibt Teslas KI-Chef Andrej Karpathy einen Einblick in den Trainingsprozess für "Tesla Vision", das maschinelle Sehsystem des Autoherstellers. Als Motivation für den radikalen Verzicht auf die sonst verbreitete Radartechnik nennt Karpathy die mittlerweile hohe Qualität der Kameraaufnahmen.

Es gebe immer wieder Fälle, in denen die im Schnitt etwa 100-mal besseren Kameradaten nicht mit den Radardaten übereinstimmen und das neuronale Netz entscheiden müsse, wie es mit den widersprüchlichen Daten umginge. Radardaten seien mittlerweile mehr störend als hilfreich, so Karpathy.

Für das Training mit Kameraaufnahmen brauche es allerdings einen riesigen Datensatz mit sauber markierten Objekten und zahlreichen Edge Cases, die ungewöhnliche Situationen abbilden.

Tesla nutzt für die Datensammlung die eigene Flotte, deren acht Kameras konstant überall auf der Welt Bilder aufzeichnen. Mit insgesamt 221 Triggern sammle Tesla die gesuchten Edge Cases, so Karpathy, etwa Fälle, in denen Radar und Kamera unterschiedliche Informationen liefern, die Begrenzungsrahmen (sog. Bounding Box) für Objekte versagen, ein Objekt in der Haupt- aber nicht der Nahkamera erkannt wird, ein Fahrer abrupt die Spur wechselt oder Fahrzeuge Objekte auf dem Dach transportieren.

Tesla markiert Daten automatisch

Von allen normalen Situationen und Edge-Cases sammelt Tesla für das Training zehn Sekunden Videoaufnahmen aller acht Kameras und lässt auf den Aufnahmen automatisch Objekte, deren Entfernung, Geschwindigkeit und erwartete Bewegungsrichtung markieren. Wo nötig, nehmen menschliche Mitarbeitende Korrekturen vor.

Aktuell habe Tesla so knapp eine Million Videoclips gesammelt von jeweils acht Kameras mit zehn Sekunden Länge und 36 Bildern pro Sekunde. Der etwa 1,5 Petabyte riesige Datensatz enthält Videos unterschiedlichster Situationen und insgesamt sechs Milliarden Beschriftungen inklusive Geschwindigkeit und Entfernung.

Für das KI-Training setzt Tesla auf eigene Supercomputer, darunter ein GPU-Supercluster mit 5.760 Nvidia A100 80 Gigabyte Grafikkarten. Nvidias eigener Supercomputer Selene habe eine vergleichbare Architektur, setze jedoch auf knapp 1.300 weniger GPUs, so Karpathy. Selene steht auf Platz fünf der schnellsten Supercomputer der Welt.

Der für das Training eingesetzte Supercomputer ist übrigens nicht Teslas Dojo-Supercomputer. Über den sei er noch nicht bereit zu sprechen, sagt Karpathy. Dojo soll ebenfalls für das KI-Training eingesetzt und wohl noch schneller werden.

20 Experten für ein künstliches neuronales Netz

Das für Tesla Vision eingesetzte neuronale Netz werde aktiv von 20 KI-Forschern trainiert, so Karpathy. Das Netz führt die Kamerabilder zusammen und gibt Informationen wie Entfernung, Geschwindigkeit oder Objektklasse aus.

Da es modular aufgebaut ist, sei es möglich, bestimmte Abschnitte gezielt zu trainieren, um etwa die Entfernungsvorhersage zu verbessern, ohne andere Aspekte der Erkennung zu beeinflussen. Für die Architektur setzt Tesla auf zahlreiche Bausteine wie Transformer, Recurrent und Convolutional Neural Networks.

Zum Abschluss seines Vortrags verstärkt Karpathy seine Botschaft, dass die reine Kameraansicht definitiv für die Tiefenmessung ausreiche: "Es ist schwierig und benötigt die Daten unserer Flotte - aber wenigstens sind wir auf dem richtigen Weg."

Karpathy grenzt sich damit klar von anderen Ansätzen ab, die die Lösung für autonomes Fahren in Sensoren wie Lidar oder zusätzlichen Hilfen wie digitalen Karten sehen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Tesla Vision: Weniger Sensoren, mehr Daten und Supercomputer

Tesla markiert Daten automatisch

20 Experten für ein künstliches neuronales Netz

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.