Laut einer aktuellen Studie von Forschern der Harvard University, der Stanford University und anderen Institutionen spielt die numerische Präzision, mit der Modelle trainiert und ausgeführt werden, eine größere Rolle für die "Scaling Laws" als bisher angenommen.
Die Studie "Scaling Laws for Precision" zeigt, dass die Präzision - also die Anzahl der Bits, mit der Zahlen in Modellen dargestellt werden - einen erheblichen Einfluss auf die Leistungsfähigkeit von Sprachmodellen hat. Bisherige Skalierungsgesetze, die beschreiben, wie sich die Leistung von Modellen mit der Anzahl der Parameter und der Menge der Trainingsdaten verändert, haben die Präzision weitgehend ignoriert, so die Forscher.
Die Forscher führten mehr als 465 Trainingsläufe durch, um ihre Hypothesen zu testen. Sie trainierten Sprachmodelle mit unterschiedlichen Genauigkeiten von 3 bis 16 Bit und quantisierten sie nach dem Training auf verschiedene Genauigkeitsstufen. Die Modelle hatten bis zu 1,7 Milliarden Parameter und wurden mit bis zu 26 Milliarden Tokens trainiert.
Ein wichtiges Ergebnis der Studie ist, dass übertrainierte Sprachmodelle nach dem Training empfindlicher auf die Quantisierung reagieren. Ein Modell gilt als übertrainiert, wenn das Verhältnis von Trainings-Token zu Parametern deutlich über dem "Chinchilla-optimalen" Wert von etwa 20 liegt. Die Forscher untersuchten Verhältnisse von bis zu 1000.
In ihren Experimenten stellten die Forscher auch fest, dass die Verschlechterung der Leistung durch die Quantisierung nach dem Training mit der Menge der Trainingsdaten zunimmt. Wenn ein Modell nach dem Training quantisiert wird, kann ein zusätzliches Training mit mehr Daten sogar schädlich sein, da die Quantisierungsfehler verstärkt werden.
Neue Skalierungsgesetze für Präzision
Auf der Grundlage ihrer Experimente entwickelten die Forscher neue Skalierungsgesetze, die die Genauigkeit in die Gleichungen einbeziehen. Eine weitere wichtige Erkenntnis betrifft die rechenoptimale Genauigkeit beim Pre-Training. Diese ist der Studie zufolge im Allgemeinen unabhängig vom Rechenbudget, wenn die Anzahl der Parameter, die Daten und die Genauigkeit gemeinsam optimiert werden.
Die gängige Praxis, Modelle mit 16 Bit zu trainieren, ist demnach suboptimal, da viele Bits unnötig sind. Andererseits erfordert das Training mit 4 Bit eine überproportionale Vergrößerung des Modells, um die Skalierung der Verluste beizubehalten. Die Berechnungen der Forscher deuten darauf hin, dass 7-8 Bits für größere Modelle rechenoptimal sind.
Ist die Modellgröße jedoch von vornherein festgelegt, sieht die Sache anders aus: Dann sollte man größere und besser trainierte Modelle mit höherer Genauigkeit trainieren, also zum Beispiel Modelle wie Llama 3.1 8B mit 16 Bit.
Allerdings ist zu beachten, dass die tatsächliche Rechenersparnis auch von der Hardwareunterstützung für niedrigere Genauigkeiten abhängt. Außerdem wurden die in dieser Studie untersuchten Modelle mit bis zu 1,7 Milliarden Parametern noch nicht im größten praxisrelevanten Maßstab untersucht. Die allgemeinen Trends sollten jedoch auf größere Modelle übertragbar sein.
Da die Hardwareentwicklung immer mehr Unterstützung für Berechnungen mit niedriger Genauigkeit bietet, können diese neuen Skalierungsgesetze den Entwicklern helfen, das optimale Gleichgewicht zwischen Modellgröße, Datenmenge und Genauigkeit zu finden.
"Der perfekte Sturm für das Ende des Skalierens"
Für den KI-Forscher Tim Dettmers von der Carnegie Mellon University und Allen AI ist die Arbeit eines der "wichtigsten Papiere seit einiger Zeit": Es zeige deutlich, dass die Community die Grenzen der Quantisierung erreicht habe - mit Auswirkungen auf die KI-Forschung und GPUs.
Zusammen mit physikalischen Grenzen sieht er einen "perfekten Sturm" für das Ende der Skalierbarkeit. Effiziente Low-Precision-Verfahren wie das 8-Bit-Training würden an ihre Grenzen stoßen, insbesondere bei großen Modellen wie LLaMA 3.1 mit 405 Milliarden Parametern. Dettmers sieht nur noch wenige Möglichkeiten zur Effizienzsteigerung, etwa durch größere Rechenzentren, spezialisierte Modelle oder Knowledge Distillation. Er glaubt, dass sich das Paradigma bald von der reinen Skalierung hin zu menschenzentrierten Anwendungen verschieben wird. Das Papier liefere erstmals harte Beweise für einen Trend, den Effizienzforscher schon lange vermutet hätten.