Skip to content

Forscher zeigen: Kleinere KI-Modelle können große Sprachmodelle effizienter trainieren

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Google-Forscher haben eine neue Methode namens SALT entwickelt, die das Training großer Sprachmodelle um bis zu 28 Prozent beschleunigt und gleichzeitig deren Leistung verbessert, indem kleinere KI-Modelle als Hilfslehrer eingesetzt werden.
  • Die Methode funktioniert in zwei Phasen: Zunächst lernt das große Modell vom kleineren durch Knowledge Distillation, wobei das kleine Modell in Bereichen hilft, in denen es bereits gute Vorhersagen treffen kann. Anschließend wird das große Modell konventionell weitertrainiert.
  • In Tests erreichte ein mit SALT trainiertes 2,8-Milliarden-Parameter-Modell bereits nach 70 Prozent der üblichen Trainingszeit die gleiche Leistung wie ein konventionell trainiertes Modell und schnitt nach weiterem Feintuning sogar besser ab, insbesondere bei arithmetischen Aufgaben und Textverständnis.

Ein Forscherteam von Google hat eine neue Methode entwickelt, mit der sich große Sprachmodelle schneller und besser trainieren lassen. Der Trick: Die Verwendung kleinerer KI-Modelle als Hilfslehrer.

Ein Team von Google Research und Google DeepMind hat eine neue Trainingsmethode für große Sprachmodelle (LLMs) entwickelt, die das Training um bis zu 28 Prozent beschleunigt und gleichzeitig die Leistung der Modelle verbessert. Die Methode namens SALT (Small model aided large model training) nutzt dabei kleinere Sprachmodelle als eine Art Hilfslehrer.

Der Ansatz funktioniert in zwei Phasen: In der ersten Phase lernt das große Modell vom kleinen Modell durch sogenanntes Knowledge Distillation. Dabei gibt ein KI-Modell (der "Teacher") sein erlerntes Wissen an ein anderes Modell (den "Student") weiter, indem der Student die korrekten Antworten sowie die Wahrscheinlichkeitsverteilungen der Vorhersagen des Teachers lernt.

Üblicherweise ist bei Knowledge Distillation der Teacher größer und leistungsfähiger als der Student. Die Google-Forscher zeigen in ihrer Studie jedoch, dass die Methode auch andersherum funktionieren kann: Ein kleineres Modell kann als Teacher für ein größeres Modell dienen - zumindest in bestimmten Trainingsphasen. In der zweiten Phase wird das große Modell dann konventionell weitertrainiert.

Das kleine Modell hilft laut der Arbeit besonders in den Bereichen, in denen es selbst bereits gute Vorhersagen treffen kann. In diesen "einfachen" Bereichen lernt das große Modell schneller und stabiler. In schwierigeren Bereichen übernimmt dann das konventionelle Training.

SALT für große und kleine Sprachmodelle nützlich

Die Forscher zeigen in ihrer Studie, dass mit SALT ein 1,5 Milliarden Parameter großes Modell helfen kann, ein 2,8 Milliarden Parameter großes Modell effizienter zu trainieren. Das so trainierte große Modell erreichte bereits nach 70 Prozent der üblichen Trainingszeit die gleiche Leistung wie ein konventionell trainiertes Modell. In verschiedenen Benchmark-Tests schnitt es anschließend sogar besser ab.

Besonders deutlich waren die Verbesserungen nach einem zusätzlichen Feintuning für spezifische Aufgaben. Bei arithmetischen Aufgaben erreichte das SALT-trainierte Modell eine Genauigkeit von 34,87 Prozent gegenüber 31,84 Prozent beim Baseline-Modell. Bei Textverständnisaufgaben verbesserte sich die Leistung von 63,7 auf 67 Prozent.

Die Forscher entwickelten auch eine erweiterte Version namens SALTDS, die zusätzlich eine intelligente Auswahl der Trainingsdaten vornimmt. Dabei werden gezielt solche Beispiele ausgewählt, bei denen das kleine Modell bereits gute Ergebnisse zeigt.

Während SALT helfen kann, leistungsfähigere große Sprachmodelle (LLMs) zu trainieren, sieht das Team auch Potenzial für kleinere Modelle (LMs). So seien ihre Methoden besonders für Institutionen interessant, die leistungsstarke LMs benötigen, aber keinen direkten Zugang zu großen Sprachmodellen haben, um diese zu destillieren, sagt das Team. Mit SALT könnten sie auch mit begrenzten Ressourcen leistungsfähigere Sprachmodelle entwickeln.

Source: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren