Mit dem Supercomputer Dojo will Tesla die weltweit schnellste KI-Trainingsmaschine bauen. Tesla setzt dabei auf die Effizienz von eigens für das KI-Training entwickelter Hardware statt nur auf reine Rechenleistung.
Tesla mag zwar Autos bauen, aber ein wichtiger Bestandteil, und mit weitem Blick nach vorne vielleicht sogar der Kern der Unternehmung, ist die Entwicklung Künstlicher Intelligenz.
Tesla will rein mit maschinellem Sehen autonome Autos sicher über die Straßen führen, ein gigantisches Unterfangen für die KI-Forschung, und stellt auf dem eigenen KI-Tag sogar ein Projekt für die Entwicklung eines Alltagsroboters vor. Und mit Neuralink hat Tesla-Chef Elon Musk ein weiteres KI-Projekt mit potenziell großer Tragweite unter seiner Fittiche.
Dojo D1: KI-Chip für die nächste Generation KI-Training
Für das KI-Training des maschinellen Sehverfahrens "Tesla Vision", das Teslas Fahrzeuge lenkt, setzte das Unternehmen bislang auf eigens zusammengestellte Supercomputer mit Nvidias GPU A100.
Auf dem KI-Tag stellte Teslas Dojo-Entwicklungschef Ganesh Venkataramanan jetzt die Grundlage für die nächste Generation KI-Training bei Tesla vor: den D1 Chip. Er ist laut Venkataramanan eigenes für KI-Prozesse entworfen und komplett bei Tesla intern entwickelt - von der Architektur bis zum fertigen Paket.
"Dieser Chip bietet Rechenleistung auf GPU-Niveau mit einer Flexibilität auf CPU-Niveau und einer doppelt so hohen IO-Bandbreite wie ein Netzwerkchip", sagt Venkataramanan. Tausende dieser in 7nm gefertigten KI-Chips sollen zusammengesetzt auf sogenannten "Trainings Tiles" den Dojo-Supercomputer auf eine Rechengeschwindigkeit von mehr als einem Exaflop hieven.
Dojo bietet auf dem Papier weniger Rechenleistung als das aktuelle Nvidia-basierte Tesla-Trainingssystem, das bis zu 1,8 Exaflops liefern kann. Laut Venkataramanan läuft das KI-Training mit Dojo allerdings effizienter und daher schneller. Er verspricht für Dojo "kein unnötiges Silizium, kein Legacy-Support, es ist eine reine Maschine für maschinelles Lernen".
Erste Tests laufen bereits - Regelbetrieb ab nächstem Jahr
Tesla will die Exaflop-Leistung durch die Vernetzung vieler Trainings Tiles erreichen: Auf einer Kachel (Tile) sitzen 25 D1-Chips mit zusammengerechnet circa neun Petaflops Leistung. Laut Venkataramanan ist die erste Dojo-Tile seit einer Woche im Testbetrieb.
Zwölf dieser Kacheln werden dann über zwei Fächer verteilt in einer Rechnereinheit verbaut. Das entspricht einer Rechenleistung von circa 100 Petaflops pro Rechnereinheit. Im finalen Schritt sollen dann zehn dieser Rechnereinheiten verbunden werden und gemeinsam bis zu 1,1 Exaflops KI-Leistung im Datenformat BF16 liefern.
Der fertige Dojo-Supercomputer soll 120 dieser Training Tiles mit insgesamt 3.000 D1-Chips und mehr als einer Million Knoten bieten. Laut Elon Musk startet der Regelbetrieb von Dojo im kommenden Jahr.
Die komplette Dojo-Präsentation könnt ihr im folgenden Video ab 1:45:40 ansehen.