Ein Forscherteam von Google hat eine neue Methode entwickelt, mit der sich große Sprachmodelle schneller und besser trainieren lassen. Der Trick: Die Verwendung kleinerer KI-Modelle als Hilfslehrer.
Ein Team von Google Research und Google DeepMind hat eine neue Trainingsmethode für große Sprachmodelle (LLMs) entwickelt, die das Training um bis zu 28 Prozent beschleunigt und gleichzeitig die Leistung der Modelle verbessert. Die Methode namens SALT (Small model aided large model training) nutzt dabei kleinere Sprachmodelle als eine Art Hilfslehrer.
Der Ansatz funktioniert in zwei Phasen: In der ersten Phase lernt das große Modell vom kleinen Modell durch sogenanntes Knowledge Distillation. Dabei gibt ein KI-Modell (der "Teacher") sein erlerntes Wissen an ein anderes Modell (den "Student") weiter, indem der Student die korrekten Antworten sowie die Wahrscheinlichkeitsverteilungen der Vorhersagen des Teachers lernt.
Üblicherweise ist bei Knowledge Distillation der Teacher größer und leistungsfähiger als der Student. Die Google-Forscher zeigen in ihrer Studie jedoch, dass die Methode auch andersherum funktionieren kann: Ein kleineres Modell kann als Teacher für ein größeres Modell dienen - zumindest in bestimmten Trainingsphasen. In der zweiten Phase wird das große Modell dann konventionell weitertrainiert.
Das kleine Modell hilft laut der Arbeit besonders in den Bereichen, in denen es selbst bereits gute Vorhersagen treffen kann. In diesen "einfachen" Bereichen lernt das große Modell schneller und stabiler. In schwierigeren Bereichen übernimmt dann das konventionelle Training.
SALT für große und kleine Sprachmodelle nützlich
Die Forscher zeigen in ihrer Studie, dass mit SALT ein 1,5 Milliarden Parameter großes Modell helfen kann, ein 2,8 Milliarden Parameter großes Modell effizienter zu trainieren. Das so trainierte große Modell erreichte bereits nach 70 Prozent der üblichen Trainingszeit die gleiche Leistung wie ein konventionell trainiertes Modell. In verschiedenen Benchmark-Tests schnitt es anschließend sogar besser ab.
Besonders deutlich waren die Verbesserungen nach einem zusätzlichen Feintuning für spezifische Aufgaben. Bei arithmetischen Aufgaben erreichte das SALT-trainierte Modell eine Genauigkeit von 34,87 Prozent gegenüber 31,84 Prozent beim Baseline-Modell. Bei Textverständnisaufgaben verbesserte sich die Leistung von 63,7 auf 67 Prozent.
Die Forscher entwickelten auch eine erweiterte Version namens SALTDS, die zusätzlich eine intelligente Auswahl der Trainingsdaten vornimmt. Dabei werden gezielt solche Beispiele ausgewählt, bei denen das kleine Modell bereits gute Ergebnisse zeigt.
Während SALT helfen kann, leistungsfähigere große Sprachmodelle (LLMs) zu trainieren, sieht das Team auch Potenzial für kleinere Modelle (LMs). So seien ihre Methoden besonders für Institutionen interessant, die leistungsstarke LMs benötigen, aber keinen direkten Zugang zu großen Sprachmodellen haben, um diese zu destillieren, sagt das Team. Mit SALT könnten sie auch mit begrenzten Ressourcen leistungsfähigere Sprachmodelle entwickeln.