Nach über sechs Monaten Entwicklungszeit und einem Jahr GPU-Rechenzeit stellt Hugging Face ein kostenloses Open-Source-Handbuch vor, das detailliert erklärt, wie große KI-Modelle effizient trainiert werden können.
Das knapp 100 Seiten starke "Ultra-Scale Playbook" erklärt die komplexen Techniken hinter dem Training moderner KI-Modelle. Das über 30.000 Wörter umfassende Werk basiert laut dem Start-Up auf mehr als 4.000 Skalierungsexperimenten mit bis zu 512 GPUs.
Das Handbuch behandelt zentrale Themen wie 5D-Parallelismus, ZeRO-Technologie und CUDA-Kernel und erklärt unter anderem, wie DeepSeek für nur 5 Millionen Dollar trainiert werden konnte, warum Mistral sich für ein MoE-Modell entschied und welche Parallelisierungstechniken Meta beim Training von Llama 3 einsetzte.
Die Autoren stellen die theoretischen Grundlagen anhand von Code-Implementierungen in zwei Repositories dar: "picotron" für didaktische Zwecke und "nanotron" für produktionsreife Implementierungen. Interaktive Plots und Widgets sollen die komplexen Zusammenhänge veranschaulichen.
Demokratisierung durch offenes Wissen
"Der größte Faktor für die Demokratisierung von KI wird immer sein, jedem beizubringen, wie man KI entwickelt – insbesondere, wie man leistungsstarke Modelle erstellt, trainiert und feinabstimmt", begründet Thomas Wolf, Mitgründer und CSO von Hugging Face die Veröffentlichung. Die praktische Erfahrung, die große KI-Unternehmen wie OpenAI in den vielen Trainingszyklen ihrer großen Modelle gesammelt haben, ist ein Wettbewerbsvorteil und einer der Gründe, warum Mitarbeiter, die mit diesen Modellen vertraut sind, oft mit hohen Angeboten von anderen Unternehmen angelockt werden. Mit der Veröffentlichung wird ein Teil dieses Wissens auch für die breitere Community verfügbar.
Das ursprünglich als Blogbeitrag geplante Werk soll in Kürze auch als 100-seitiges physisches Buch erscheinen.