Metas Llama 3 wurde mit einer Rekordmenge an Daten trainiert. Dies könnte zu einem Umdenken in der gesamten KI-Branche führen und bessere Modelle hervorbringen.
Mit Llama 3 hat Meta ein neues Sprachmodell vorgestellt, das die Leistungsfähigkeit anderer Modelle zum Teil deutlich übertrifft. Zentral für diese Leistungssteigerung sind laut Meta die deutlich erhöhten Trainingsdaten sowie das Fine-Tuning mit 10 Millionen qualitativ hochwertigen Beispielen.
Während bereits klar war, dass qualitativ hochwertige Daten die Leistung auch kleiner Sprachmodelle verbessern können - was etwa Microsoft kürzlich mit seinen Phi-3-Modellen erneut bestätigt hat - ist die Menge der für das Pretraining verwendeten Daten überraschend. Selbst das 8 Milliarden Parameter umfassende Modell wurde mit rund 15 Billionen Token trainiert. Bemerkenswert: Damit übertrifft das Training nicht nur bei weitem die Datenmenge, die für Llama 2 verwendet wurde, sondern auch die Datenmenge, die nach den Chinchilla-Skalierungsgesetzen als optimal gilt.
Sprachmodelle könnten um den Faktor 100 bis 1.000 unter trainiert sein
Diese von DeepMind entwickelten Gesetze besagen, dass für ein 8-Milliarden-Modell rund 200 Milliarden Trainings-Token als optimal gelten, um die Rechenleistung möglichst effizient zu nutzen. Llama 3 wurde mit der 75-fachen Datenmenge trainiert.
KI-Forscher Andrej Karpathy erklärt auf Twitter, dass die Chinchilla-Gesetze die Recheneffizienz optimieren - aber nichts darüber aussagen, wie weit ein Modell trainiert werden kann, bis es seine maximale Leistung erreicht. Karptahy ist Gründungsmitglied von OpenAI und war früher KI-Chef bei Tesla.
Congrats to @AIatMeta on Llama 3 release!! 🎉https://t.co/fSw615zE8S
Notes:Releasing 8B and 70B (both base and finetuned) models, strong-performing in their model class (but we'll see when the rankings come in @ @lmsysorg :))
400B is still training, but already encroaching…— Andrej Karpathy (@karpathy) April 18, 2024
Trotz der enormen Menge an Trainingsdaten stellte Meta fest, "dass die Leistung unserer 8- und 70-Milliarden-Parameter-Modelle auch nach dem Training mit bis zu 15 Billionen Token weiterhin log-linear ansteigt", heißt es in einem Blogeintrag des Unternehmens.
Laut Karpathy könnte dies darauf hindeuten, dass die meisten derzeit verwendeten Sprachmodelle um den Faktor 100 bis 1000 unter trainiert sind und noch nicht ihr volles Potenzial erreicht haben. Er hofft, dass andere KI-Unternehmen dem Beispiel von Meta folgen und mehr langzeittrainierte, kompakte Modelle veröffentlichen werden.
Noch ist unklar, wie weit die Leistung eines Sprachmodells durch immer längeres Training gesteigert werden kann, bevor die Zuwächse zu gering werden. Meta hat jedoch gezeigt, dass die Grenzen des Machbaren noch nicht erreicht sind.