Inhalt
summary Zusammenfassung

Ein Forscherteam von Google hat eine neue Methode entwickelt, mit der sich große Sprachmodelle schneller und besser trainieren lassen. Der Trick: Die Verwendung kleinerer KI-Modelle als Hilfslehrer.

Anzeige

Ein Team von Google Research und Google DeepMind hat eine neue Trainingsmethode für große Sprachmodelle (LLMs) entwickelt, die das Training um bis zu 28 Prozent beschleunigt und gleichzeitig die Leistung der Modelle verbessert. Die Methode namens SALT (Small model aided large model training) nutzt dabei kleinere Sprachmodelle als eine Art Hilfslehrer.

Der Ansatz funktioniert in zwei Phasen: In der ersten Phase lernt das große Modell vom kleinen Modell durch sogenanntes Knowledge Distillation. Dabei gibt ein KI-Modell (der "Teacher") sein erlerntes Wissen an ein anderes Modell (den "Student") weiter, indem der Student die korrekten Antworten sowie die Wahrscheinlichkeitsverteilungen der Vorhersagen des Teachers lernt.

Üblicherweise ist bei Knowledge Distillation der Teacher größer und leistungsfähiger als der Student. Die Google-Forscher zeigen in ihrer Studie jedoch, dass die Methode auch andersherum funktionieren kann: Ein kleineres Modell kann als Teacher für ein größeres Modell dienen - zumindest in bestimmten Trainingsphasen. In der zweiten Phase wird das große Modell dann konventionell weitertrainiert.

Anzeige
Anzeige

Das kleine Modell hilft laut der Arbeit besonders in den Bereichen, in denen es selbst bereits gute Vorhersagen treffen kann. In diesen "einfachen" Bereichen lernt das große Modell schneller und stabiler. In schwierigeren Bereichen übernimmt dann das konventionelle Training.

SALT für große und kleine Sprachmodelle nützlich

Die Forscher zeigen in ihrer Studie, dass mit SALT ein 1,5 Milliarden Parameter großes Modell helfen kann, ein 2,8 Milliarden Parameter großes Modell effizienter zu trainieren. Das so trainierte große Modell erreichte bereits nach 70 Prozent der üblichen Trainingszeit die gleiche Leistung wie ein konventionell trainiertes Modell. In verschiedenen Benchmark-Tests schnitt es anschließend sogar besser ab.

Besonders deutlich waren die Verbesserungen nach einem zusätzlichen Feintuning für spezifische Aufgaben. Bei arithmetischen Aufgaben erreichte das SALT-trainierte Modell eine Genauigkeit von 34,87 Prozent gegenüber 31,84 Prozent beim Baseline-Modell. Bei Textverständnisaufgaben verbesserte sich die Leistung von 63,7 auf 67 Prozent.

Die Forscher entwickelten auch eine erweiterte Version namens SALTDS, die zusätzlich eine intelligente Auswahl der Trainingsdaten vornimmt. Dabei werden gezielt solche Beispiele ausgewählt, bei denen das kleine Modell bereits gute Ergebnisse zeigt.

Während SALT helfen kann, leistungsfähigere große Sprachmodelle (LLMs) zu trainieren, sieht das Team auch Potenzial für kleinere Modelle (LMs). So seien ihre Methoden besonders für Institutionen interessant, die leistungsstarke LMs benötigen, aber keinen direkten Zugang zu großen Sprachmodellen haben, um diese zu destillieren, sagt das Team. Mit SALT könnten sie auch mit begrenzten Ressourcen leistungsfähigere Sprachmodelle entwickeln.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google-Forscher haben eine neue Methode namens SALT entwickelt, die das Training großer Sprachmodelle um bis zu 28 Prozent beschleunigt und gleichzeitig deren Leistung verbessert, indem kleinere KI-Modelle als Hilfslehrer eingesetzt werden.
  • Die Methode funktioniert in zwei Phasen: Zunächst lernt das große Modell vom kleineren durch Knowledge Distillation, wobei das kleine Modell in Bereichen hilft, in denen es bereits gute Vorhersagen treffen kann. Anschließend wird das große Modell konventionell weitertrainiert.
  • In Tests erreichte ein mit SALT trainiertes 2,8-Milliarden-Parameter-Modell bereits nach 70 Prozent der üblichen Trainingszeit die gleiche Leistung wie ein konventionell trainiertes Modell und schnitt nach weiterem Feintuning sogar besser ab, insbesondere bei arithmetischen Aufgaben und Textverständnis.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!