OpenAI meldet mit dem neuen Reasoning-Modell o3 einen Durchbruch bei Benchmark-Ergebnissen. Eine Komponente des schnellen Fortschritts ist eine in der KI-Welt seit langem bekannte Methode: Reinforcement Learning, das bei bestimmten Aufgaben deutliche Vorteile bringt, aber auch klare Grenzen hat.
Wie OpenAI-Forscher Nat McAleese erklärt, handelt es sich bei den o-Modellen zwar weiterhin "nur" um große Sprachmodelle, diese werden jedoch zusätzlich mit "echtem" Reinforcement Learning (RL) trainiert - ähnlich wie bei DeepMinds Brettspiel-KI AlphaGo.
Der entscheidende Unterschied zu "traditionell" trainierten Sprachmodellen: Während viele LLMs nur mit menschlichem Feedback (RLHF) feinjustiert werden, lernen o-Modelle beim Reinforcement Learning zusätzlich anhand eindeutiger, messbarer Ziele in klar definierten Szenarien.
Bei AlphaGo war das Ziel klar definiert - das Go-Spiel zu gewinnen. Das System konnte in Simulationen spielen und seine Strategie optimieren, bis es übermenschliche Leistungen erreichte.
Auch bei o3 funktioniert der Ansatz besonders gut bei Programmier- und Mathematikaufgaben, bei denen es klare Richtig-/Falsch-Kriterien gibt. Das Modell lernt anhand von Lösungen, Gedankenfolgen vorherzusagen, die zu einem richtigen Ergebnis führen, anstatt nur das nächste Wort zu prognostizieren. Daher sind die o3-Benchmarks in Mathe und Code so stark.
Dieser RL-Prozess während des Trainings wird von OpenAI als "train-time compute" bezeichnet. Durch "test-time compute" wird dann zusätzlich der Effekt der Vorhersage von Gedankenfolgen durch mehr Rechenleistung beim Ausführen des Modells verstärkt. Der Leistungsunterschied zwischen o3 und o1 kommt laut McAleese nur durch eine stärkere Skalierung des Reinforcement Learnings.
Auch DeepMind-CEO Demis Hassabis sieht Reinforcement Learning in Kombination mit LLMs als nächsten wichtigen Schritt in der KI-Entwicklung. Bereits im Sommer 2023 sprach er von einer "Kombination einiger der Stärken von AlphaGo-Systemen mit den erstaunlichen Sprachfähigkeiten der großen Modelle". Google Deepmind stellte mit Gemini 2.0 Flash Thinking ein erstes "Reasoning"-Modell vor, das wohl auf ähnliche Art trainiert wurde.
RL hat klare Grenzen bei offenen Aufgaben ohne eindeutige Lösung
McAleese betont, dass die o-Modelle eine neue Ära einläuten, in der mehr Rechenleistung zu deutlich besserer Leistung führt. "Wir haben allen Grund zu der Annahme, dass sich dieser Trend fortsetzen wird", schreibt Noam Brown, einer der entscheidenden Forscher hinter dem neuen LLM-Paradigma.
Allerdings steigen so auch die Kosten. OpenAI arbeitet bereits an einer kompakteren Version namens o3-mini, die trotz geringerer Ressourcenanforderungen vielversprechende Leistungen zeigt. Dieses Modell wird voraussichtlich Ende Januar verfügbar sein.
Der ehemalige OpenAI-Forscher und Tesla-KI-Chef Andrej Karpathy wies kürzlich darauf hin, dass der RL-Ansatz bei Sprachmodellen und weniger objektiven Aufgaben an seine Grenzen stößt. Bei Aufgaben wie Schreibstil oder Textzusammenfassungen, bei denen es eher um "Vibes" gehe als um richtig oder falsch, zeigt das Vorgängermodell o1 etwa keine Vorteile gegenüber GPT-4o - teilweise sogar schlechtere Leistungen. Zu o3 liegen in diesen Bereichen noch keine Benchmarks vor.
Beide Modelle müssen sich auch bei logischen Aufgaben in der komplexen Praxis außerhalb von Benchmarks bewähren, wo Probleme weniger eindeutig oder sogar widersprüchlich formuliert sein können und zudem umfangreicher sind, sodass sie eine Planung über einen längeren Zeitraum erfordern.
Dennoch sind zumindest die Benchmark-Ergebnisse beeindruckend. Laut Tamay Besiroglu, einem der Entwickler des extra schweren KI-Benchmarks Frontier Math, übertrifft o3 alle Erwartungen. Der erst im November erschienene Benchmark, an dem auch bekannte Mathematiker wie Terence Tao mitgearbeitet haben, wurde von den besten Modellen bislang nur zu zwei Prozent gelöst. o3 schafft hingegen rund 25 Prozent der Aufgaben - eine Leistung, mit der Besiroglu frühestens in einem Jahr gerechnet hatte.