Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

13. November 2024

Midjourney prompted by THE DECODER

Laut einer aktuellen Studie von Forschern der Harvard University, der Stanford University und anderen Institutionen spielt die numerische Präzision, mit der Modelle trainiert und ausgeführt werden, eine größere Rolle für die "Scaling Laws" als bisher angenommen.

Die Studie "Scaling Laws for Precision" zeigt, dass die Präzision - also die Anzahl der Bits, mit der Zahlen in Modellen dargestellt werden - einen erheblichen Einfluss auf die Leistungsfähigkeit von Sprachmodellen hat. Bisherige Skalierungsgesetze, die beschreiben, wie sich die Leistung von Modellen mit der Anzahl der Parameter und der Menge der Trainingsdaten verändert, haben die Präzision weitgehend ignoriert, so die Forscher.

Die Forscher führten mehr als 465 Trainingsläufe durch, um ihre Hypothesen zu testen. Sie trainierten Sprachmodelle mit unterschiedlichen Genauigkeiten von 3 bis 16 Bit und quantisierten sie nach dem Training auf verschiedene Genauigkeitsstufen. Die Modelle hatten bis zu 1,7 Milliarden Parameter und wurden mit bis zu 26 Milliarden Tokens trainiert.

Ein wichtiges Ergebnis der Studie ist, dass übertrainierte Sprachmodelle nach dem Training empfindlicher auf die Quantisierung reagieren. Ein Modell gilt als übertrainiert, wenn das Verhältnis von Trainings-Token zu Parametern deutlich über dem "Chinchilla-optimalen" Wert von etwa 20 liegt. Die Forscher untersuchten Verhältnisse von bis zu 1000.

In ihren Experimenten stellten die Forscher auch fest, dass die Verschlechterung der Leistung durch die Quantisierung nach dem Training mit der Menge der Trainingsdaten zunimmt. Wenn ein Modell nach dem Training quantisiert wird, kann ein zusätzliches Training mit mehr Daten sogar schädlich sein, da die Quantisierungsfehler verstärkt werden.

Neue Skalierungsgesetze für Präzision

Auf der Grundlage ihrer Experimente entwickelten die Forscher neue Skalierungsgesetze, die die Genauigkeit in die Gleichungen einbeziehen. Eine weitere wichtige Erkenntnis betrifft die rechenoptimale Genauigkeit beim Pre-Training. Diese ist der Studie zufolge im Allgemeinen unabhängig vom Rechenbudget, wenn die Anzahl der Parameter, die Daten und die Genauigkeit gemeinsam optimiert werden.

Die gängige Praxis, Modelle mit 16 Bit zu trainieren, ist demnach suboptimal, da viele Bits unnötig sind. Andererseits erfordert das Training mit 4 Bit eine überproportionale Vergrößerung des Modells, um die Skalierung der Verluste beizubehalten. Die Berechnungen der Forscher deuten darauf hin, dass 7-8 Bits für größere Modelle rechenoptimal sind.

Ist die Modellgröße jedoch von vornherein festgelegt, sieht die Sache anders aus: Dann sollte man größere und besser trainierte Modelle mit höherer Genauigkeit trainieren, also zum Beispiel Modelle wie Llama 3.1 8B mit 16 Bit.

Allerdings ist zu beachten, dass die tatsächliche Rechenersparnis auch von der Hardwareunterstützung für niedrigere Genauigkeiten abhängt. Außerdem wurden die in dieser Studie untersuchten Modelle mit bis zu 1,7 Milliarden Parametern noch nicht im größten praxisrelevanten Maßstab untersucht. Die allgemeinen Trends sollten jedoch auf größere Modelle übertragbar sein.

Da die Hardwareentwicklung immer mehr Unterstützung für Berechnungen mit niedriger Genauigkeit bietet, können diese neuen Skalierungsgesetze den Entwicklern helfen, das optimale Gleichgewicht zwischen Modellgröße, Datenmenge und Genauigkeit zu finden.

"Der perfekte Sturm für das Ende des Skalierens"

Für den KI-Forscher Tim Dettmers von der Carnegie Mellon University und Allen AI ist die Arbeit eines der "wichtigsten Papiere seit einiger Zeit": Es zeige deutlich, dass die Community die Grenzen der Quantisierung erreicht habe - mit Auswirkungen auf die KI-Forschung und GPUs.

Zusammen mit physikalischen Grenzen sieht er einen "perfekten Sturm" für das Ende der Skalierbarkeit. Effiziente Low-Precision-Verfahren wie das 8-Bit-Training würden an ihre Grenzen stoßen, insbesondere bei großen Modellen wie LLaMA 3.1 mit 405 Milliarden Parametern. Dettmers sieht nur noch wenige Möglichkeiten zur Effizienzsteigerung, etwa durch größere Rechenzentren, spezialisierte Modelle oder Knowledge Distillation. Er glaubt, dass sich das Paradigma bald von der reinen Skalierung hin zu menschenzentrierten Anwendungen verschieben wird. Das Papier liefere erstmals harte Beweise für einen Trend, den Effizienzforscher schon lange vermutet hätten.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Neue Skalierungsgesetze für Präzision

"Der perfekte Sturm für das Ende des Skalierens"

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.