Inhalt
summary Zusammenfassung

Metas Llama 3 wurde mit einer Rekordmenge an Daten trainiert. Dies könnte zu einem Umdenken in der gesamten KI-Branche führen und bessere Modelle hervorbringen.

Mit Llama 3 hat Meta ein neues Sprachmodell vorgestellt, das die Leistungsfähigkeit anderer Modelle zum Teil deutlich übertrifft. Zentral für diese Leistungssteigerung sind laut Meta die deutlich erhöhten Trainingsdaten sowie das Fine-Tuning mit 10 Millionen qualitativ hochwertigen Beispielen.

Während bereits klar war, dass qualitativ hochwertige Daten die Leistung auch kleiner Sprachmodelle verbessern können - was etwa Microsoft kürzlich mit seinen Phi-3-Modellen erneut bestätigt hat - ist die Menge der für das Pretraining verwendeten Daten überraschend. Selbst das 8 Milliarden Parameter umfassende Modell wurde mit rund 15 Billionen Token trainiert. Bemerkenswert: Damit übertrifft das Training nicht nur bei weitem die Datenmenge, die für Llama 2 verwendet wurde, sondern auch die Datenmenge, die nach den Chinchilla-Skalierungsgesetzen als optimal gilt.

Sprachmodelle könnten um den Faktor 100 bis 1.000 unter trainiert sein

Diese von DeepMind entwickelten Gesetze besagen, dass für ein 8-Milliarden-Modell rund 200 Milliarden Trainings-Token als optimal gelten, um die Rechenleistung möglichst effizient zu nutzen. Llama 3 wurde mit der 75-fachen Datenmenge trainiert.

Anzeige
Anzeige

KI-Forscher Andrej Karpathy erklärt auf Twitter, dass die Chinchilla-Gesetze die Recheneffizienz optimieren - aber nichts darüber aussagen, wie weit ein Modell trainiert werden kann, bis es seine maximale Leistung erreicht. Karptahy ist Gründungsmitglied von OpenAI und war früher KI-Chef bei Tesla.

Trotz der enormen Menge an Trainingsdaten stellte Meta fest, "dass die Leistung unserer 8- und 70-Milliarden-Parameter-Modelle auch nach dem Training mit bis zu 15 Billionen Token weiterhin log-linear ansteigt", heißt es in einem Blogeintrag des Unternehmens.

Laut Karpathy könnte dies darauf hindeuten, dass die meisten derzeit verwendeten Sprachmodelle um den Faktor 100 bis 1000 unter trainiert sind und noch nicht ihr volles Potenzial erreicht haben. Er hofft, dass andere KI-Unternehmen dem Beispiel von Meta folgen und mehr langzeittrainierte, kompakte Modelle veröffentlichen werden.

Noch ist unklar, wie weit die Leistung eines Sprachmodells durch immer längeres Training gesteigert werden kann, bevor die Zuwächse zu gering werden. Meta hat jedoch gezeigt, dass die Grenzen des Machbaren noch nicht erreicht sind.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta hat mit Llama 3 ein neues Sprachmodell vorgestellt, das mit einer Rekordmenge an Daten trainiert wurde und die Leistung anderer Modelle übertrifft.
  • Selbst das 8-Milliarden-Parameter-Modell wurde mit rund 15 Billionen Token trainiert, was die nach den Chinchilla-Skalierungsgesetzen als optimal geltende Datenmenge um das 75-fache übertrifft.+
  • Laut KI-Forscher Andrej Karpathy könnte dies darauf hindeuten, dass die meisten derzeitigen Sprachmodelle um den Faktor 100 bis 1000 unter trainiert sind und ihr volles Potenzial noch nicht erreicht haben.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!