Inhalt
summary Zusammenfassung

Der Computer-Using Agent von OpenAI erhält ein Upgrade: Mit dem neuen o3-Modell soll Operator präziser, strukturierter und erfolgreicher im Web agieren.

Anzeige

OpenAI hat seinen Operator-Agenten in ChatGPT mit einem neuen Modell auf Basis der o3-Architektur ausgestattet. Das neue Modell ersetzt die bisherige GPT-4o-basierte Version von Operator und ist weltweit in ChatGPT-Pro als Forschungsvorschau verfügbar. Die API-Nutzung basiert weiterhin auf GPT-4o.

KI 'Operator Browser': Screenshots von Michelin-Restaurantbuchungen mit Zeitfenstern in Web-Oberflächen.
Links die Antwort des 4o-Modells, rechts antwortet die o4-Variante ausführlicher und detaillierter. | Bild: OpenAI

Der sogenannte Computer-Using Agent (CUA) kann Webseiten wie ein Mensch bedienen – etwa durch Scrollen, Klicken oder Texteingaben – und wurde ursprünglich im Januar 2025 als Forschungs-Vorschau eingeführt. Die Idee: Ein KI-Agent, der Webseiten ähnlich wie ein Mensch bedient und damit komplexe Aufgaben automatisiert.

Mehr Struktur, höhere Erfolgsquote

Mit dem Upgrade auf o3 soll Operator deutlich robuster und erfolgreicher bei der Ausführung webbasierten Aufgaben agieren. Laut OpenAI interagiert das Modell präziser mit dem Browser und liefert klarer strukturierte sowie umfassendere Antworten. Interne Tests zeigen eine höhere Erfolgsquote bei komplexen Aufgaben.

Anzeige
Anzeige
Vergleichsdaten: KI-Modell CUA o3 übertrifft CUA 4o in Benchmarks (OSWorld, WebArena) & menschlicher Präferenz (Stil, Klarheit).
In Benchmarks für die Browser-Automation übertrifft der o3-Agent den bisherigen 4o-Agenten deutlich. | Bild: OpenAI

In Benchmarks wie OSWorld und WebArena erreicht das neue Modell laut OpenAI den aktuellen Stand der Technik. Auch bei Nutzertests zur Antwortqualität schneidet es besser ab als sein Vorgänger.

Feintuning mit Sicherheitsdaten

Während o3 Operator auf derselben Architektur wie andere o3-Modelle basiert, wurde es speziell für die Nutzung von Computerschnittstellen trainiert. Dazu kamen zusätzliche Sicherheitsdaten zum Einsatz, die etwa helfen sollen, angemessene Bestätigungen und Ablehnungen zu erlernen. Trotz der geerbten Coding-Fähigkeiten von o3 habe o3 Operator keinen nativen Zugang zu einer Coding-Umgebung oder einem Terminal, stellt OpenAI klar.

Das Risiko bei Browser-Agenten besteht darin, dass sie Webseiteninhalte analysieren und als Handlungsanweisungen interpretieren müssen – ähnlich wie einen Prompt. Dadurch könnten Angreifer gezielt manipulierte Seiten erstellen, die den Agenten zu schädlichen Aktionen verleiten, etwa zur Preisgabe sensibler Nutzerdaten über gefälschte Log-in-Formulare.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat den Operator-Agenten in ChatGPT mit dem neuen o3-Modell ausgestattet, das das bisherige GPT-4o-Modell ersetzt.
  • Der o3-Operator ist weiterhin nur als Forschungs-Vorschau für Pro-Nutzer in ChatGPT verfügbar. Die API-Version bleibt unverändert bei GPT-4o.
  • Das o3-Modell im Operator erzielt laut OpenAI klarere, strukturiertere und vollständigere Antworten sowie bessere Ergebnisse bei Interaktionen mit Webseiten.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!