Inhalt
summary Zusammenfassung

OpenAI kündigt mit o3 sein bisher leistungsfähigstes KI-Modell an. Die kostengünstigere Mini-Version soll Ende Januar erscheinen, die Vollversion kurz darauf.

Anzeige

OpenAI hat sein neues "Reasoning"-Modell o3 vorgestellt, das in wichtigen KI-Benchmarks neue Maßstäbe setzt. Wie das kürzlich veröffentlichte Vorgängermodell o1 nimmt sich o3 mehr Zeit und Rechenleistung, um Aufgaben zu lösen. Dabei durchläuft es einen komplexen Denkprozess bis zur Antwort.

Laut OpenAI erreicht das System beim AGI-Benchmark ARC eine bisher unerreichte Leistung von 75,7 Prozent bei normaler und 87,5 Prozent bei erhöhter Rechenleistung. Der Benchmark gilt als wichtiger Gradmesser für künstliche allgemeine Intelligenz (AGI), die neue Aufgaben lösen und generalisieren kann.

Zweiteiliges Bild: Oben Leistungsdiagramm mit Kosten/Score-Vergleich verschiedener KI-Modelle, unten Gitterbeispiele mit farbigen Mustertransformationen.
OpenAIs neue o3-Modelle erreichen die höchsten Leistungswerte bei unterschiedlichen Kostenniveaus, sind aber auch teurer in der Ausführung. | Bild: ARC

Besonders beeindruckend sind die mathematischen Fähigkeiten: Bei der amerikanischen Mathematik-Olympiade AIME 2024 löste o3 96,7 Prozent der Aufgaben und verfehlte nur eine einzige Frage. Beim Frontier Math Benchmark von EpochAI, einem der schwierigsten mathematischen Tests, erreichte o3 25,2 Prozent - bisherige Modelle kamen nicht über 2 Prozent hinaus.

Anzeige
Anzeige

Bei Software-Aufgaben erreicht das Modell eine Genauigkeit von 71,7 Prozent, was laut OpenAI eine Verbesserung von 20 Prozent gegenüber den o1-Modellen darstellt. Im Programmierbereich übertraf o3 auf der Plattform Codeforces mit einer Wertung von 2727 sogar OpenAIs Chief Scientist (2665).

Bei PhD-Level-Wissenschaftsfragen im GPT Diamond Benchmark kommt o3 auf 87,7 Prozent - deutlich über dem Durchschnitt von PhD-Experten, die laut OpenAI in ihren jeweiligen Fachgebieten etwa 70 Prozent erreichen.

Fortschritt, aber keine AGI

François Chollet, der Entwickler des ARC-Benchmarks, bezeichnet das gute Abschneiden als einen überraschenden und wichtigen Sprung in den KI-Fähigkeiten.

Laut Chollet unterscheidet sich o3 grundlegend von bisherigen Sprachmodellen. Während diese hauptsächlich gespeicherte Muster abrufen, könne o3 zur Laufzeit neue Programme entwickeln, um unbekannte Aufgaben zu lösen.

Das System durchsuche dabei den Raum möglicher Lösungswege (Chains of Thought) womöglich ähnlich wie Google Deepminds AlphaZero beim Schachspiel. Dieser Suchprozess erklärt auch den hohen Rechenaufwand von bis zu 33 Millionen Tokens pro Aufgabe.

Empfehlung

Entsprechend sind auch die Kosten für den Betrieb von o3 erheblich im Vergleich zu existierenden ConsumerKI-Systemen: Für die effiziente Version (High-Efficiency) fallen laut Chollet bei 100 Testaufgaben etwa 2.012 Dollar an, was 20 Dollar pro Aufgabe entspricht. Für 400 öffentliche Testaufgaben wurden 6.677 Dollar fällig - etwa 17 Dollar pro Task.

Die rechenintensive Version (Low-Efficiency) benötigt etwa 172-mal mehr Ressourcen, die genauen Kosten will OpenAI nicht veröffentlichen. Pro Aufgabe verarbeitet das System zwischen 33 und 111 Millionen Tokens und benötigt etwa 1,3 Minuten Rechenzeit.

Sechs 20x20-Gitterdiagramme zeigen Input/Output-Paare für Musterumwandlungen, mit farbigen Blöcken und Transformationsbeispielen.
Beispiel für eine visuelle Logikaufgabe, die o3 im ARC-Benchmark lösen muss. | Bild: ARC

Doch trotz der beeindruckenden Leistung betont Chollet, dass o3 noch keine künstliche allgemeine Intelligenz (AGI) darstellt. Das System scheitere weiterhin an einigen einfachen Aufgaben und zeige fundamentale Unterschiede zur menschlichen Intelligenz.

Von AGI könne erst dann gesprochen werden, wenn es nicht mehr möglich sei, Aufgaben zu entwickeln, die für Menschen einfach, für KI-Systeme aber schwierig seien. Bis dahin bleibe der ARC-Benchmark ein wichtiges Instrument, um die Grenzen heutiger KI-Systeme aufzuzeigen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der ARC-AGI-Benchmark sei mit dem neuen o3-System langsam gesättigt. Chollet kündigt deshalb einen Nachfolger für 2025 an: ARC-AGI-2 soll deutlich anspruchsvoller werden. Erste Tests deuten darauf hin, dass auch o3 hier nur etwa 30 Prozent erreichen wird. Kluge Menschen könnten in diesem Test ohne Training 95 Prozent der Aufgaben lösen.

Kostengünstige o3 Mini-Version startet ab Ende Januar 2025

OpenAI plant, Ende Januar 2025 zunächst eine kostengünstigere Mini-Version von o3 zu veröffentlichen. Die Vollversion von o3 soll später folgen.

Die kleinere Variante o3 mini soll laut OpenAI eine besonders kostengünstige Alternative darstellen. Das Modell bietet drei Geschwindigkeitsstufen (niedrig, mittel, hoch) und erzielt bereits in der mittleren Einstellung bessere Ergebnisse als o1 - bei deutlich geringeren Kosten und schnellerer Verarbeitung.

In einer Live-Demonstration zeigte OpenAI, wie das Modell selbstständig Code generieren und ausführen kann. So erzeugte O3 mini ein Python-Skript, das ein User Interface (UI) generierte, um sich selbst auf einem "GPQ"-Datensatz zu evaluieren.

o3 mini unterstützt auch API-Funktionen wie Funktionsaufrufe und strukturierte Ausgaben. Laut OpenAI erreicht es hier vergleichbare oder bessere Ergebnisse als O1.

Vor der Veröffentlichung startet OpenAI ein neues öffentliches Sicherheitstestprogramm. Sicherheitsforscher können sich bis zum 10. Januar für die Teilnahme bewerben. Das Unternehmen führt auch eine neue Sicherheitstechnik namens "Deliberative Alignment" ein, die die Argumentationsfähigkeiten des Modells nutzt, um bessere Sicherheitsgrenzen zu definieren.

Anzeige
Anzeige

Der Name "o3" wurde übrigens gewählt, weil OpenAI die Bezeichnung "o2" aus Rücksicht auf den Telekommunikationskonzern O2 überspringen musste.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI kündigt mit o3 sein bisher leistungsfähigstes KI-Modell an, das in wichtigen Benchmarks wie dem AGI-Test ARC (75,7 %), der Mathematik-Olympiade AIME (96,7 %) und Codeforces (Wertung 2727) neue Maßstäbe setzt. PhD-Level-Wissenschaftsfragen soll es besser lösen können als Fachexperten.
  • Laut François Chollet, dem Entwickler des ARC-Benchmarks, unterscheidet sich o3 grundlegend von bisherigen Sprachmodellen, indem es zur Laufzeit neue Programme entwickelt, um unbekannte Aufgaben zu lösen. Trotz der Leistung stelle o3 aber noch keine künstliche allgemeine Intelligenz (AGI) dar und unterscheide sich grundlegend von menschlicher Intelligenz.
  • OpenAI plant, Ende Januar 2025 zunächst eine kostengünstigere Mini-Version von o3 zu veröffentlichen, die bereits in der mittleren Einstellung bessere Ergebnisse als o1 erzielt. Die Vollversion soll später folgen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!