Reasoning-Modelle wie OpenAIs o3 zeigen rasante Fortschritte – vor allem bei Mathematik- und Programmieraufgaben. Eine Analyse von Epoch AI zeigt nun, wie weit sich dieses neue Trainingsparadigma noch skalieren lässt – und wo die Grenzen liegen könnten.
Reasoning-Modelle gelten als nächster Entwicklungsschritt großer Sprachmodelle. Sie durchlaufen nach dem klassischen Pre-Training eine zusätzliche Phase, in der sie mit verstärkendem Lernen auf das Lösen komplexer Probleme trainiert werden. OpenAIs o3 ist eines der ersten Modelle dieser Art und zeigt laut Benchmark-Ergebnissen deutliche Leistungsgewinne gegenüber seinem Vorgänger o1. Doch wie lange lässt sich diese Entwicklung durch mehr Rechenaufwand fortsetzen?
Dieser Frage geht eine aktuelle Analyse von Epoch AI nach. Autor und Datenanalyst Josh You hat untersucht, wie viel Rechenleistung derzeit in das sogenannte Reasoning Training investiert wird – und wie groß der Spielraum für weiteres Wachstum ist.
10-fache Skalierung bei OpenAI
OpenAI hat angegeben, dass o3 mit zehnmal so viel Reasoning Compute trainiert wurde wie o1 – und das nur vier Monate nach dessen Veröffentlichung. Eine von OpenAI veröffentlichte Grafik zeigt einen engen Zusammenhang zwischen Rechenaufwand und Leistung im AIME-Mathematikbenchmark. Epoch AI geht davon aus, dass sich diese Daten auf den Compute-Aufwand der zweiten Trainingsphase beziehen, nicht auf das gesamte Modelltraining.
Absolute Zahlen nennt OpenAI nicht. Epoch AI versucht deshalb, über Vergleichsmodelle wie DeepSeek-R1 Rückschlüsse zu ziehen. Dieses Modell erreichte ähnliche Benchmark-Werte wie o1 und wurde laut Schätzung mit etwa 6e23 FLOP trainiert – bei geschätzten Kosten von rund einer Million US-Dollar.
Andere Modelle, andere Methoden
Auch Nvidia und Microsoft haben Reasoning-Modelle mit öffentlich dokumentierten Trainingsdaten veröffentlicht. Das Reasoning Training von Nvidias Llama-Nemotron Ultra 253B benötigte rund 140.000 H100-GPU-Stunden – etwa 1e23 FLOP. Bei Microsofts Phi-4-reasoning lag der Aufwand sogar unter 1e20 FLOP. Beide Modelle nutzten jedoch in hohem Maße synthetische Trainingsdaten, die aus anderen KI-Modellen stammten. Das erschwert laut Epoch AI die Vergleichbarkeit mit Modellen wie o3.
Ein weiteres Problem: Der Begriff "Reasoning Training" ist nicht eindeutig definiert. Neben verstärkendem Lernen kommen auch andere Verfahren wie Supervised Fine-Tuning zum Einsatz. Welche Anteile davon in die Compute-Schätzungen einfließen, ist unklar.
Noch ist viel Luft nach oben – aber nicht unbegrenzt
Laut Epoch AI befinden sich Reasoning-Modelle aktuell noch weit unterhalb der Gesamt-Compute-Grenze führender KI-Trainingsläufe für große Modelle wie Grok 3, die im Bereich von >1e26 FLOP liegt. Derzeitige Reasoning-Stufen bewegen sich typischerweise im Bereich von 1e23 bis 1e24 FLOP.
Anthropic-CEO Dario Amodei kommt in einem von Epoch AI zitierten Text zu einer ähnlichen Einschätzung. Seiner Meinung nach reichen derzeit Investitionen von einer Million US-Dollar im Reasoning Training aus, um große Fortschritte zu erzielen. Unternehmen arbeiten jedoch bereits daran, die Kosten dieser zweiten Trainingsphase auf Hunderte Millionen oder mehr zu steigern.
Sollte sich die Skalierung im bisherigen Tempo fortsetzen – etwa zehnfache Steigerungen alle drei bis fünf Monate –, könnte Reasoning Compute bereits im kommenden Jahr mit dem Gesamt-Compute führender Modelle gleichziehen. Danach würde sich das Wachstum laut You dieses oder nächstes Jahr verlangsamen und dem allgemeinen Trend von etwa dem Vierfachen pro Jahr angleichen.
Hindernisse: Daten, Domänen, Entwicklungskosten
Epoch AI weist darauf hin, dass die Rechenleistung nicht der einzige begrenzende Faktor ist. Für das Reasoning Training ist eine große Menge an hochwertigen, anspruchsvollen Aufgaben erforderlich. Diese sind jedoch nicht unbegrenzt verfügbar und lassen sich nur schwer synthetisch erzeugen. Offen ist auch, wie gut sich das Verfahren auf weniger strukturierte Bereiche außerhalb von Mathematik und Programmierung übertragen lässt, wenngleich Beispiele wie „Deep Research” von ChatGPT, das eine speziell trainierte Version von o3 nutzt, darauf hindeuten, dass es einen gewissen Spielraum zu geben scheint.
Hinzu kommt: Die Entwicklungsarbeit hinter den Kulissen – etwa bei der Auswahl geeigneter Aufgaben, Belohnungsfunktionen und Trainingsstrategien – ist aufwendig. Diese Forschungskosten sind in den meisten Compute-Schätzungen nicht enthalten.
Dennoch zeigen sich OpenAI und andere Entwickler laut Epoch AI weiterhin optimistisch. Die bisher gezeigten Skalierungskurven ähneln den klassischen log-linearen Fortschrittsmustern beim Pre-Training. Und o3 zeigt nicht nur in Mathematik, sondern auch in agentenbasierten Softwareaufgaben deutliche Leistungsgewinne.
Wie lange sich dieser Fortschritt fortsetzen lässt, hängt laut Epoch AI davon ab, wie effizient sich das Reasoning Training weiter skalieren lässt – technisch, wirtschaftlich und inhaltlich.