Teslas KI-Chef gibt auf einem Workshop Einblicke in den Trainingsprozess des neuen Kamera-basierten Ansatzes für Autopilot und den FSD-Computer (Full-Self-Driving).
Ende Mai verkündete Elon Musk den Verzicht auf Radarsysteme vorerst in den US-Modellen der Model 3 und Model Y Serie. Zukünftig wolle der E-Auto-Hersteller rein auf Kamerabasis autonom fahren.
Nun gibt Teslas KI-Chef Andrej Karpathy einen Einblick in den Trainingsprozess für "Tesla Vision", das maschinelle Sehsystem des Autoherstellers. Als Motivation für den radikalen Verzicht auf die sonst verbreitete Radartechnik nennt Karpathy die mittlerweile hohe Qualität der Kameraaufnahmen.
Es gebe immer wieder Fälle, in denen die im Schnitt etwa 100-mal besseren Kameradaten nicht mit den Radardaten übereinstimmen und das neuronale Netz entscheiden müsse, wie es mit den widersprüchlichen Daten umginge. Radardaten seien mittlerweile mehr störend als hilfreich, so Karpathy.
Für das Training mit Kameraaufnahmen brauche es allerdings einen riesigen Datensatz mit sauber markierten Objekten und zahlreichen Edge Cases, die ungewöhnliche Situationen abbilden.
Tesla nutzt für die Datensammlung die eigene Flotte, deren acht Kameras konstant überall auf der Welt Bilder aufzeichnen. Mit insgesamt 221 Triggern sammle Tesla die gesuchten Edge Cases, so Karpathy, etwa Fälle, in denen Radar und Kamera unterschiedliche Informationen liefern, die Begrenzungsrahmen (sog. Bounding Box) für Objekte versagen, ein Objekt in der Haupt- aber nicht der Nahkamera erkannt wird, ein Fahrer abrupt die Spur wechselt oder Fahrzeuge Objekte auf dem Dach transportieren.
Tesla markiert Daten automatisch
Von allen normalen Situationen und Edge-Cases sammelt Tesla für das Training zehn Sekunden Videoaufnahmen aller acht Kameras und lässt auf den Aufnahmen automatisch Objekte, deren Entfernung, Geschwindigkeit und erwartete Bewegungsrichtung markieren. Wo nötig, nehmen menschliche Mitarbeitende Korrekturen vor.
Aktuell habe Tesla so knapp eine Million Videoclips gesammelt von jeweils acht Kameras mit zehn Sekunden Länge und 36 Bildern pro Sekunde. Der etwa 1,5 Petabyte riesige Datensatz enthält Videos unterschiedlichster Situationen und insgesamt sechs Milliarden Beschriftungen inklusive Geschwindigkeit und Entfernung.
Für das KI-Training setzt Tesla auf eigene Supercomputer, darunter ein GPU-Supercluster mit 5.760 Nvidia A100 80 Gigabyte Grafikkarten. Nvidias eigener Supercomputer Selene habe eine vergleichbare Architektur, setze jedoch auf knapp 1.300 weniger GPUs, so Karpathy. Selene steht auf Platz fünf der schnellsten Supercomputer der Welt.
Der für das Training eingesetzte Supercomputer ist übrigens nicht Teslas Dojo-Supercomputer. Über den sei er noch nicht bereit zu sprechen, sagt Karpathy. Dojo soll ebenfalls für das KI-Training eingesetzt und wohl noch schneller werden.
20 Experten für ein künstliches neuronales Netz
Das für Tesla Vision eingesetzte neuronale Netz werde aktiv von 20 KI-Forschern trainiert, so Karpathy. Das Netz führt die Kamerabilder zusammen und gibt Informationen wie Entfernung, Geschwindigkeit oder Objektklasse aus.
Da es modular aufgebaut ist, sei es möglich, bestimmte Abschnitte gezielt zu trainieren, um etwa die Entfernungsvorhersage zu verbessern, ohne andere Aspekte der Erkennung zu beeinflussen. Für die Architektur setzt Tesla auf zahlreiche Bausteine wie Transformer, Recurrent und Convolutional Neural Networks.
Zum Abschluss seines Vortrags verstärkt Karpathy seine Botschaft, dass die reine Kameraansicht definitiv für die Tiefenmessung ausreiche: "Es ist schwierig und benötigt die Daten unserer Flotte - aber wenigstens sind wir auf dem richtigen Weg."
Karpathy grenzt sich damit klar von anderen Ansätzen ab, die die Lösung für autonomes Fahren in Sensoren wie Lidar oder zusätzlichen Hilfen wie digitalen Karten sehen.