Skip to content

Neue Trainingsmethode DisTrO könnte KI-Training großer Sprachmodelle demokratisieren

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Forscher haben eine neue Optimierungsmethode namens DisTrO entwickelt, die den Datenaustausch zwischen GPUs beim Training großer KI-Modelle um das bis zu 10.000-fache reduziert.
  • DisTrO senkt die Bandbreitenanforderungen beim Pre-Training eines 1,2 Milliarden Parameter großen Sprachmodells von 74,4 GB auf 86,8 MB pro Trainingsschritt. Dies ermöglicht das Training über normale Internetverbindungen ohne spezialisierte Hochgeschwindigkeitsverbindungen.
  • Die Methode könnte das Training großer KI-Modelle demokratisieren, indem sie es Forschern und Organisationen mit begrenzten Ressourcen ermöglicht, an der Entwicklung von State-of-the-Art-Modellen teilzunehmen. Zudem sehen die Forscher Potenzial für Anwendungen wie Federated Learning.

Eine neue Optimierungsmethode namens DisTrO reduziert die Kommunikation zwischen GPUs während des KI-Trainings um das bis zu 10.000-fache. Das macht das Training von großen Sprachmodellen über normale Internetverbindungen möglich.

Forscher haben mit DisTrO eine neue Familie von Optimierern entwickelt, die den erforderlichen Datenaustausch zwischen GPUs beim Training großer KI-Modelle wie Sprachmodelle (LLMs) und Diffusionsmodelle massiv reduziert.

Beim herkömmlichen verteilten Training müssen nach jedem Trainingsschritt die vollen Gradienten zwischen allen beteiligten Beschleunigern (GPUs, TPUs) synchronisiert werden. Das erfordert extrem hohe Bandbreiten und spezialisierte Hochgeschwindigkeitsverbindungen zwischen den Beschleunigern.

DisTrO reduziert diese Kommunikationsanforderungen um vier bis fünf Größenordnungen. Beim Pre-Training eines 1,2 Milliarden Parameter großen Sprachmodells sank die erforderliche Bandbreite pro Trainingsschritt von 74,4 GB auf nur noch 86,8 MB - eine Reduktion um den Faktor 857.

Beim Fine-Tuning sind laut dem Team sogar Reduktionen um das bis zu 10.000-fache möglich. DisTrO sei dabei unabhängig von der Netzwerktopologie und der Architektur der trainierten neuronalen Netze.

DisTrO soll KI-Training demokratisieren

Die Forscher sehen in DisTrO daher das Potenzial, das Training großer KI-Modelle zu demokratisieren: Die drastisch reduzierten Bandbreitenanforderungen könnten es ermöglichen, Modelle über normale Internetverbindungen zu trainieren, ohne auf spezialisierte Hochgeschwindigkeitsverbindungen angewiesen zu sein.

Dies würde auch Forschern und Organisationen mit begrenzten Ressourcen die Beteiligung an der Entwicklung von State-of-the-Art-KI-Modellen ermöglichen. Bisher ist dies Regierungen und großen Tech-Unternehmen in wohlhabenden Ländern vorbehalten, die über die nötigen finanziellen Mittel und die dedizierte Infrastruktur verfügen.

DisTrO könnte auch die Erstellung eines vollständig dezentralen Netzwerks zur gemeinsamen Ressourcennutzung ermöglichen, so das Team. Das Verfahren sei bemerkenswert widerstandsfähig gegenüber dem Ausfall oder der Beeinträchtigung einzelner Knoten und lasse sich leicht an neu hinzukommende Knoten anpassen.

Auch für Anwendungen wie Federated Learning, bei denen Modelle kollaborativ trainiert werden, die Trainingsdaten aber privat und dezentral bleiben, sehen die Forscher großes Potenzial. DisTrO könne Federated Learning für das effiziente Training von LLMs über das Internet praktisch umsetzbar machen.

Quelle: Nous

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren