Inhalt
summary Zusammenfassung

OpenAI erweitert seine o-Serie um zwei neue Sprachmodelle mit verbesserter Tool-Nutzung und starker Leistung bei komplexen Aufgaben. Die Modelle zielen auf eine agentenartige Problemlösungsfähigkeit.

Anzeige

OpenAI hat mit o3 und o4-mini neue Modelle seiner o-Serie vorgestellt, die laut Unternehmensangaben die bisher intelligentesten Modelle des Unternehmens darstellen sollen.

Eine Kernneuerung sei die Fähigkeit, agentisch alle in ChatGPT verfügbaren Werkzeuge wie Websuche, Datenanalyse mit Python, Bildanalyse und Bildgenerierung zu nutzen und zu kombinieren, so OpenAI.

Die Modelle sollen gelernt haben, selbstständig zu entscheiden, wann und wie Werkzeuge eingesetzt werden müssen, um komplexe Probleme typischerweise unter einer Minute zu lösen.

Anzeige
Anzeige

Als Beispiel nennt OpenAI einen Prompt zum Thema Energieverbrauch, bei der das Modell Websuche, Python-Analyse, Diagrammerstellung und Erklärung kombiniert und das Endergebnis als Lösung präsentiert.

Video: OpenAI

Denken mit Bildern

Ein weiterer zentraler Fortschritt sei die Fähigkeit der Modelle, Bilder direkt in ihre interne Gedankenkette zu integrieren und mit ihnen zu "denken", anstatt sie nur zu "sehen".

Dabei helfen soll die native Nutzung von Werkzeugen zur Bildmanipulation wie Zoomen, Zuschneiden oder Drehen direkt im Reasoning-Prozess, wie OpenAI in einem Blogbeitrag zur visuellen Denkfähigkeit erläutert.

In einem Beispiel zeigt OpenAI, wie das KI-Modell eine auf der Kopf stehende unleserliche Handschrift einzoomt, das Bild umdreht und dann korrekt transkribiert.

Empfehlung
Das Modell erkennt, dass die Schrift auf dem Kopf steht und kann sie per Tool-Use herumdrehen, um sie dann korrekt zu transkribieren. | Bild: OpenAI (Screenshot THE DECODER)

Laut OpenAI führt die Kombination aus verbessertem Reasoning und vollem Werkzeugzugriff zu signifikant stärkerer Leistung bei akademischen Benchmarks und realen Aufgaben. Ziel sei ein agentischeres ChatGPT, das Aufgaben unabhängiger ausführen könne.

Video: OpenAI

Neue Bestwerte in Benchmarks

OpenAI o3, das erstmals im Dezember 2024 vorgestellt und seitdem weiter optimiert wurde, ist laut OpenAI das leistungsstärkste Reasoning-Modell des Unternehmens.

Es soll in Bereichen wie Coding, Mathematik, Wissenschaft und visueller Wahrnehmung Fortschritte und neue Spitzenwerte (State-of-the-Art, SOTA) in Benchmarks wie Codeforces, SWE-bench und MMMU erreichen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Zudem soll es dabei 20 Prozent weniger schwerwiegende Fehler als das Vorgängermodell o1 bei schwierigen realen Aufgaben machen, insbesondere in Programmierung, Business/Consulting und kreativer Ideenfindung. Frühe Tester hätten die analytische Strenge und die Fähigkeit zur Hypothesengenerierung hervorgehoben, so OpenAI.

o3 und das im Vergleich viel effizientere o4-mini setzen neue Bestmarken, insbesondere bei multimodalen und wissenschaftlichen Benchmarks. | Bild: OpenAI

o4-mini ist eine kleinere, auf Geschwindigkeit und Kosteneffizienz optimierte Variante, die laut OpenAI für ihre Größe und ihren Preis bemerkenswerte Leistungen insbesondere bei Mathematik-, Coding- und visuellen Aufgaben erzielt.

Bei der AIME 2025 erreicht o4-mini mit Python-Zugang 99,5 Prozent, was laut OpenAI einer Sättigung dieses Benchmarks entspricht. Im Vergleich zu o3-mini verbessert sich o4-mini auch bei nicht-technischen Aufgaben und im Bereich Data Science deutlich.

o4-mini liegt im Preis-Leistungs-Vergleich vorn. | Bild: OpenAI

Beide Modelle sollen laut OpenAI Prompts besser folgen und nützlichere, und dank Web-Quellen verifizierbarere Antworten liefern. Sie sollen sich zudem natürlicher in der Konversation verhalten, indem sie auf frühere Interaktionen zurückgreifen.

Mehr Rechenleistung = bessere Leistung

Für das Reinforcement Learning und Schlussfolgerungen während des "Denkvorgangs" hat OpenAI laut eigenen Angaben die Rechenleistung um eine Größenordnung gesteigert und sehe weiterhin Leistungssteigerungen. Dennoch sollen o3 und o4-mini oft nicht nur intelligenter, sondern auch kosteneffizienter als ihre Vorgänger o1 und o3-mini sein.

Im Vergleich zur o1-Serie aus dem Herbst 2024 sollen die neuen o-Modelle deutlich effizienter sein bei besserer Leistung. | Bild: OpenAI

OpenAI sieht sich in der Annahme bestätigt, dass die Kombination aus Reinforcement Learning und dem längeren "Nachdenken" die Leistung der KI-Modelle verbessere.

Anzeige
Anzeige

Mittels RL sei den Modellen auch beigebracht worden, wann und wie sie Werkzeuge zielgerichtet einsetzen sollen, was ihre Fähigkeiten in offenen Situationen, besonders bei visuellem Reasoning und mehrstufigen Abläufen, verbessere.

Codex CLI und Verfügbarkeit

Ab sofort können zahlende ChatGPT-Nutzer (Plus, Pro, Team) o3, o4-mini und o4-mini-high nutzen; in Kürze folgt der Zugang für Enterprise- und Edu-Konten. Frei-Nutzer können o4-mini in der Auswahl „Think“ ausprobieren. Entwickler erhalten Zugriff via Chat Completions API und die neue Responses API. Sie müssen möglicherweise ihre Organisationen verifizieren, um Zugriff zu erhalten.

Ein Modell namens o3-pro mit vollem Tool-Support soll in einigen Wochen erscheinen. Zukünftige Modelle sollen Reasoning-Fähigkeiten der o-Serie mit Konversations- und Werkzeugfähigkeiten der GPT-Serie vereinen. Gemeint sein dürfte GPT-5, das im Sommer starten soll.

Als Experiment stellt OpenAI zudem Codex CLI vor, einen leichtgewichtigen Coding-Agenten für das Terminal, der lokal läuft und das Reasoning von o3/o4-mini nutzen soll. Er ermögliche multimodales Arbeiten über die Kommandozeile (Screenshots, Skizzen) mit Zugriff auf lokalen Code und ist Open Source auf GitHub verfügbar. Eine Förderinitiative von 1 Million US-Dollar in API-Credits soll Projekte unterstützen.

Grenzen bei Faktenwissen und Halluzinationen

Trotz der Fortschritte bei Tool-Nutzung und Reasoning zeigen die neuen Modelle auch Schwächen. In der PersonQA-Bewertung, bei der Modelle auf Fragen zu bekannten Persönlichkeiten getestet werden, schneidet o4-mini schlechter ab als o1 und o3. OpenAI führt das auf die geringere Modellgröße zurück: Kleinere Modelle verfügen über weniger Weltwissen und neigen stärker zur Halluzination.

Auffällig ist aber ein Unterschied zwischen o1 und o3: o3 macht insgesamt mehr Aussagen – was sowohl die Zahl korrekter als auch inkorrekter Behauptungen erhöht. OpenAI vermutet, dass o3 durch seine stärkeren Schlussfolgerungsfähigkeiten eher dazu neigt, auch bei unklarer Informationslage Aussagen zu generieren. Ob dies auf Trainingsdaten, Belohnungsfunktionen oder andere Faktoren zurückzuführen ist, soll in künftigen Studien geklärt werden.

Anzeige
Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI stellt mit o3 und o4-mini zwei neue Modelle vor, die intern länger "denken", alle ChatGPT-Werkzeuge wie Web-Recherche, Datenanalyse, Bildanalyse und Bildgenerierung kombinieren und selbstständig entscheiden können, wann welches Werkzeug für komplexe Aufgaben eingesetzt wird.
  • Die neuen Modelle integrieren Bilder direkt in den Denkprozess und nutzen native Bildmanipulation. Sie erzielen neue Bestwerte in Benchmarks wie Codeforces, SWE-bench, MMMU und AIME 2025. o4-mini punktet mit hoher Effizienz und Performance auch bei nicht-technischen Aufgaben.
  • Für Anwender sind o3 und o4-mini ab sofort in ChatGPT Plus, Pro, Team und über die API verfügbar; ein neuer Coding-Agent (Codex CLI) wurde als Open-Source-Projekt veröffentlicht, und zukünftige Modelle sollen Reasoning- und Tool-Fähigkeiten noch weiter vereinen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!