Inhalt
summary Zusammenfassung

OpenAI meldet mit dem neuen Reasoning-Modell o3 einen Durchbruch bei Benchmark-Ergebnissen. Eine Komponente des schnellen Fortschritts ist eine in der KI-Welt seit langem bekannte Methode: Reinforcement Learning, das bei bestimmten Aufgaben deutliche Vorteile bringt, aber auch klare Grenzen hat.

Anzeige

Wie OpenAI-Forscher Nat McAleese erklärt, handelt es sich bei den o-Modellen zwar weiterhin "nur" um große Sprachmodelle, diese werden jedoch zusätzlich mit "echtem" Reinforcement Learning (RL) trainiert - ähnlich wie bei DeepMinds Brettspiel-KI AlphaGo.

Der entscheidende Unterschied zu "traditionell" trainierten Sprachmodellen: Während viele LLMs nur mit menschlichem Feedback (RLHF) feinjustiert werden, lernen o-Modelle beim Reinforcement Learning zusätzlich anhand eindeutiger, messbarer Ziele in klar definierten Szenarien.

Bei AlphaGo war das Ziel klar definiert - das Go-Spiel zu gewinnen. Das System konnte in Simulationen spielen und seine Strategie optimieren, bis es übermenschliche Leistungen erreichte.

Anzeige
Anzeige

Auch bei o3 funktioniert der Ansatz besonders gut bei Programmier- und Mathematikaufgaben, bei denen es klare Richtig-/Falsch-Kriterien gibt. Das Modell lernt anhand von Lösungen, Gedankenfolgen vorherzusagen, die zu einem richtigen Ergebnis führen, anstatt nur das nächste Wort zu prognostizieren. Daher sind die o3-Benchmarks in Mathe und Code so stark.

Dieser RL-Prozess während des Trainings wird von OpenAI als "train-time compute" bezeichnet. Durch "test-time compute" wird dann zusätzlich der Effekt der Vorhersage von Gedankenfolgen durch mehr Rechenleistung beim Ausführen des Modells verstärkt. Der Leistungsunterschied zwischen o3 und o1 kommt laut McAleese nur durch eine stärkere Skalierung des Reinforcement Learnings.

Auch DeepMind-CEO Demis Hassabis sieht Reinforcement Learning in Kombination mit LLMs als nächsten wichtigen Schritt in der KI-Entwicklung. Bereits im Sommer 2023 sprach er von einer "Kombination einiger der Stärken von AlphaGo-Systemen mit den erstaunlichen Sprachfähigkeiten der großen Modelle". Google Deepmind stellte mit Gemini 2.0 Flash Thinking ein erstes "Reasoning"-Modell vor, das wohl auf ähnliche Art trainiert wurde.

RL hat klare Grenzen bei offenen Aufgaben ohne eindeutige Lösung

McAleese betont, dass die o-Modelle eine neue Ära einläuten, in der mehr Rechenleistung zu deutlich besserer Leistung führt. "Wir haben allen Grund zu der Annahme, dass sich dieser Trend fortsetzen wird", schreibt Noam Brown, einer der entscheidenden Forscher hinter dem neuen LLM-Paradigma.

Allerdings steigen so auch die Kosten. OpenAI arbeitet bereits an einer kompakteren Version namens o3-mini, die trotz geringerer Ressourcenanforderungen vielversprechende Leistungen zeigt. Dieses Modell wird voraussichtlich Ende Januar verfügbar sein.

Empfehlung

Der ehemalige OpenAI-Forscher und Tesla-KI-Chef Andrej Karpathy wies kürzlich darauf hin, dass der RL-Ansatz bei Sprachmodellen und weniger objektiven Aufgaben an seine Grenzen stößt. Bei Aufgaben wie Schreibstil oder Textzusammenfassungen, bei denen es eher um "Vibes" gehe als um richtig oder falsch, zeigt das Vorgängermodell o1 etwa keine Vorteile gegenüber GPT-4o - teilweise sogar schlechtere Leistungen. Zu o3 liegen in diesen Bereichen noch keine Benchmarks vor.

Beide Modelle müssen sich auch bei logischen Aufgaben in der komplexen Praxis außerhalb von Benchmarks bewähren, wo Probleme weniger eindeutig oder sogar widersprüchlich formuliert sein können und zudem umfangreicher sind, sodass sie eine Planung über einen längeren Zeitraum erfordern.

Dennoch sind zumindest die Benchmark-Ergebnisse beeindruckend. Laut Tamay Besiroglu, einem der Entwickler des extra schweren KI-Benchmarks Frontier Math, übertrifft o3 alle Erwartungen. Der erst im November erschienene Benchmark, an dem auch bekannte Mathematiker wie Terence Tao mitgearbeitet haben, wurde von den besten Modellen bislang nur zu zwei Prozent gelöst. o3 schafft hingegen rund 25 Prozent der Aufgaben - eine Leistung, mit der Besiroglu frühestens in einem Jahr gerechnet hatte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI meldet mit dem Sprachmodell o3 einen signifikanten Fortschritt bei Benchmark-Ergebnissen. Der Schlüssel dazu ist Reinforcement Learning (RL), bei dem das Modell anhand eindeutiger, messbarer Ziele in klar definierten Szenarien lernt, ähnlich wie bei DeepMinds AlphaGo.
  • Bei o3 funktioniert der RL-Ansatz besonders gut bei Programmier- und Mathematikaufgaben mit klaren Richtig-/Falsch-Kriterien. Durch mehr Rechenleistung beim Training und bei der Ausführung des Modells wird die Leistung weiter gesteigert.
  • RL stößt jedoch bei offeneren Aufgaben ohne eindeutige Lösung an Grenzen. Bei subjektiveren Kriterien wie Schreibstil zeigt etwa das Vorgängermodell o1 keine Vorteile gegenüber GPT-4. Auch in der komplexen Praxis müssen sich die Modelle erst noch bewähren, wenn Probleme weniger eindeutig formuliert und umfangreicher sind als in den Benchmarks.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!