OpenAI hat o3-pro für Pro-Nutzer verfügbar gemacht. Das neue Modell soll durch seine höhere Rechenleistung bessere und zuverlässigere Antworten liefern. Dafür benötigt es allerdings deutlich mehr Zeit, selbst wenn die Antwort eigentlich einfach wäre.
OpenAI hat o3-Pro für Pro-Nutzer in ChatGPT sowie über die API verfügbar gemacht. Laut der Ankündigung handelt es sich dabei um eine Version des o3-Modells, die mehr Rechenleistung nutzt, um „länger zu denken und die zuverlässigsten Antworten zu liefern”. Details dazu verrät das Unternehmen nicht. Es gibt jedoch Vermutungen, dass o3-pro und sein Vorgänger o1-pro, den o3-pro ersetzt, für jede Nutzeranfrage mehrere Durchläufe parallel starten. Über einen Mechanismus wie Mehrheitsabstimmung o. Ä. kommen sie dann zu einer besseren Antwort.
Das Modell soll so besonders herausfordernde Fragen in Bereichen wie Mathematik, Wissenschaft und Programmierung bearbeiten. Laut OpenAI soll das Modell dort eingesetzt werden, "wo Zuverlässigkeit wichtiger ist als Geschwindigkeit und das Warten von ein paar Minuten den Kompromiss wert ist".
Anders als sein Vorgänger verfügt o3-pro zudem über Zugang zu verschiedenen Tools. Das Modell kann laut OpenAI im Web suchen, Dateien analysieren, visuelle Eingaben verarbeiten, Python verwenden und Antworten durch eine Memory-Funktion personalisieren. Durch diesen Tool-Zugang benötigen Antworten typischerweise länger als bei o1-pro, so das Unternehmen.
o3-pro ist ein Spezialist, der das Chatten verlernt hat
In Expertenbewertungen soll o3-pro laut OpenAI "konsistent gegenüber o3 in jeder getesteten Kategorie bevorzugt" werden, besonders in den Bereichen Wissenschaft, Bildung, Programmierung, Business und Schreibhilfe. Die Bewerter hätten o3-pro durchweg höher für Klarheit, Vollständigkeit, Anweisungsbefolgung und Genauigkeit bewertet.
OpenAI verwendet für die Bewertung einen "4/4-Zuverlässigkeitstest", bei dem ein Modell nur dann als erfolgreich gilt, wenn es eine Frage in allen vier Versuchen korrekt beantwortet. Akademische Evaluierungen sollen zeigen, dass o3-pro sowohl o1-pro als auch o3 "konsistent übertrifft".
Allerdings gibt es bisher nur wenige unabhängige Benchmarks für o3-pro. Ben Hylak von Raindrop.ai, der nach eigenen Angaben frühen Zugang zu o3-pro hatte, berichtet in einem Blogbeitrag von seinen ersten Eindrücken. Laut Hylak zeige das Modell seine Stärken erst bei komplexeren Aufgaben mit viel Kontext. "Es gab keinen einfachen Test oder keine einfache Frage, die mich umgehauen hätte", schreibt er.
Erst als Hylak und sein Mitgründer dem Modell umfangreiche Kontextinformationen über ihr Unternehmen gaben - inklusive Protokolle vergangener Planungsmeetings und Unternehmensziele - habe o3-pro einen detaillierten Plan mit konkreten Metriken und Zeitplänen erstellt. "Der Plan, den o3 Pro uns gab, war spezifisch und fundiert genug, dass er tatsächlich verändert hat, wie wir über unsere Zukunft denken", so Hylak. Solche qualitativen Verbesserungen seien jedoch "schwer in einem Eval zu erfassen".
Für alltägliche Gespräche dürfte das Modell dagegen wenig geeignet sein. Yuchen Jin, CTO bei Hyperbolic Labs, demonstrierte bei X, wie o3-pro auf die simple Begrüßung "Hi, I'm Sam Altman" reagiert: Das Modell benötigte zwischen vier und 14 Minuten Denkzeit, kostete etwa 80 US-Dollar und antwortete schließlich mit "Hello Sam Altman. How can I assist you today". Ein klarer Fall von "Overthinking".
Hohe Kosten und aktuelle Einschränkungen
o3-pro ist für Pro- und Team-Nutzer sofort verfügbar und ersetzt o1-pro. Enterprise- und Edu-Nutzer erhalten laut OpenAI "in der Woche danach" Zugang. Für Entwickler ist das Modell ausschließlich über die Responses API verfügbar, um "Unterstützung für Multi-Turn-Modell-Interaktionen vor der Antwort auf API-Anfragen und andere erweiterte API-Funktionen in der Zukunft zu ermöglichen".
Die Preisstruktur von o3-pro liegt deutlich über der anderer aktuell verfügbarer Modelle: So kosten Input-Tokens 20 Dollar pro Million Tokens und Output-Tokens 80 Dollar pro Million Tokens. Im Vergleich zum nun ersetzten o1-pro ist das jedoch eine Preisreduktion von über 80 Prozent. Gleichzeitig wurden auch die Preise für o3 deutlich gesenkt – das Modell ist jetzt 80 Prozent günstiger als noch vor wenigen Tagen.
Das Modell verfügt über ein Kontextfenster von 200.000 Tokens und kann maximal 100.000 Output-Tokens generieren. Der Knowledge Cutoff liegt beim 1. Juni 2024.
Aktuell gibt es noch einige Einschränkungen: Temporäre Chats sind aufgrund eines technischen Problems deaktiviert. Bildgenerierung wird nicht unterstützt - Nutzer sollen stattdessen GPT-4o, o3 oder o4-mini verwenden. Auch Canvas wird derzeit nicht unterstützt.