Inhalt
summary Zusammenfassung

Eine neue Optimierungsmethode namens DisTrO reduziert die Kommunikation zwischen GPUs während des KI-Trainings um das bis zu 10.000-fache. Das macht das Training von großen Sprachmodellen über normale Internetverbindungen möglich.

Anzeige

Forscher haben mit DisTrO eine neue Familie von Optimierern entwickelt, die den erforderlichen Datenaustausch zwischen GPUs beim Training großer KI-Modelle wie Sprachmodelle (LLMs) und Diffusionsmodelle massiv reduziert.

Beim herkömmlichen verteilten Training müssen nach jedem Trainingsschritt die vollen Gradienten zwischen allen beteiligten Beschleunigern (GPUs, TPUs) synchronisiert werden. Das erfordert extrem hohe Bandbreiten und spezialisierte Hochgeschwindigkeitsverbindungen zwischen den Beschleunigern.

DisTrO reduziert diese Kommunikationsanforderungen um vier bis fünf Größenordnungen. Beim Pre-Training eines 1,2 Milliarden Parameter großen Sprachmodells sank die erforderliche Bandbreite pro Trainingsschritt von 74,4 GB auf nur noch 86,8 MB - eine Reduktion um den Faktor 857.

Anzeige
Anzeige

Beim Fine-Tuning sind laut dem Team sogar Reduktionen um das bis zu 10.000-fache möglich. DisTrO sei dabei unabhängig von der Netzwerktopologie und der Architektur der trainierten neuronalen Netze.

DisTrO soll KI-Training demokratisieren

Die Forscher sehen in DisTrO daher das Potenzial, das Training großer KI-Modelle zu demokratisieren: Die drastisch reduzierten Bandbreitenanforderungen könnten es ermöglichen, Modelle über normale Internetverbindungen zu trainieren, ohne auf spezialisierte Hochgeschwindigkeitsverbindungen angewiesen zu sein.

Dies würde auch Forschern und Organisationen mit begrenzten Ressourcen die Beteiligung an der Entwicklung von State-of-the-Art-KI-Modellen ermöglichen. Bisher ist dies Regierungen und großen Tech-Unternehmen in wohlhabenden Ländern vorbehalten, die über die nötigen finanziellen Mittel und die dedizierte Infrastruktur verfügen.

DisTrO könnte auch die Erstellung eines vollständig dezentralen Netzwerks zur gemeinsamen Ressourcennutzung ermöglichen, so das Team. Das Verfahren sei bemerkenswert widerstandsfähig gegenüber dem Ausfall oder der Beeinträchtigung einzelner Knoten und lasse sich leicht an neu hinzukommende Knoten anpassen.

Auch für Anwendungen wie Federated Learning, bei denen Modelle kollaborativ trainiert werden, die Trainingsdaten aber privat und dezentral bleiben, sehen die Forscher großes Potenzial. DisTrO könne Federated Learning für das effiziente Training von LLMs über das Internet praktisch umsetzbar machen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben eine neue Optimierungsmethode namens DisTrO entwickelt, die den Datenaustausch zwischen GPUs beim Training großer KI-Modelle um das bis zu 10.000-fache reduziert.
  • DisTrO senkt die Bandbreitenanforderungen beim Pre-Training eines 1,2 Milliarden Parameter großen Sprachmodells von 74,4 GB auf 86,8 MB pro Trainingsschritt. Dies ermöglicht das Training über normale Internetverbindungen ohne spezialisierte Hochgeschwindigkeitsverbindungen.
  • Die Methode könnte das Training großer KI-Modelle demokratisieren, indem sie es Forschern und Organisationen mit begrenzten Ressourcen ermöglicht, an der Entwicklung von State-of-the-Art-Modellen teilzunehmen. Zudem sehen die Forscher Potenzial für Anwendungen wie Federated Learning.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!