OpenAIs Operator-Agent erhält o3-Upgrade für präzisere Browser-Steuerung

GPT-Image-1 prompted by THE DECODER

Der Computer-Using Agent von OpenAI erhält ein Upgrade: Mit dem neuen o3-Modell soll Operator präziser, strukturierter und erfolgreicher im Web agieren.

OpenAI hat seinen Operator-Agenten in ChatGPT mit einem neuen Modell auf Basis der o3-Architektur ausgestattet. Das neue Modell ersetzt die bisherige GPT-4o-basierte Version von Operator und ist weltweit in ChatGPT-Pro als Forschungsvorschau verfügbar. Die API-Nutzung basiert weiterhin auf GPT-4o.

KI 'Operator Browser': Screenshots von Michelin-Restaurantbuchungen mit Zeitfenstern in Web-Oberflächen. — Links die Antwort des 4o-Modells, rechts antwortet die o4-Variante ausführlicher und detaillierter. | Bild: OpenAI

Der sogenannte Computer-Using Agent (CUA) kann Webseiten wie ein Mensch bedienen – etwa durch Scrollen, Klicken oder Texteingaben – und wurde ursprünglich im Januar 2025 als Forschungs-Vorschau eingeführt. Die Idee: Ein KI-Agent, der Webseiten ähnlich wie ein Mensch bedient und damit komplexe Aufgaben automatisiert.

Mehr Struktur, höhere Erfolgsquote

Mit dem Upgrade auf o3 soll Operator deutlich robuster und erfolgreicher bei der Ausführung webbasierten Aufgaben agieren. Laut OpenAI interagiert das Modell präziser mit dem Browser und liefert klarer strukturierte sowie umfassendere Antworten. Interne Tests zeigen eine höhere Erfolgsquote bei komplexen Aufgaben.

Vergleichsdaten: KI-Modell CUA o3 übertrifft CUA 4o in Benchmarks (OSWorld, WebArena) & menschlicher Präferenz (Stil, Klarheit). — In Benchmarks für die Browser-Automation übertrifft der o3-Agent den bisherigen 4o-Agenten deutlich. | Bild: OpenAI

In Benchmarks wie OSWorld und WebArena erreicht das neue Modell laut OpenAI den aktuellen Stand der Technik. Auch bei Nutzertests zur Antwortqualität schneidet es besser ab als sein Vorgänger.

Feintuning mit Sicherheitsdaten

Während o3 Operator auf derselben Architektur wie andere o3-Modelle basiert, wurde es speziell für die Nutzung von Computerschnittstellen trainiert. Dazu kamen zusätzliche Sicherheitsdaten zum Einsatz, die etwa helfen sollen, angemessene Bestätigungen und Ablehnungen zu erlernen. Trotz der geerbten Coding-Fähigkeiten von o3 habe o3 Operator keinen nativen Zugang zu einer Coding-Umgebung oder einem Terminal, stellt OpenAI klar.

Das Risiko bei Browser-Agenten besteht darin, dass sie Webseiteninhalte analysieren und als Handlungsanweisungen interpretieren müssen – ähnlich wie einen Prompt. Dadurch könnten Angreifer gezielt manipulierte Seiten erstellen, die den Agenten zu schädlichen Aktionen verleiten, etwa zur Preisgabe sensibler Nutzerdaten über gefälschte Log-in-Formulare.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAIs Operator-Agent erhält o3-Upgrade für präzisere Browser-Steuerung

Mehr Struktur, höhere Erfolgsquote

Feintuning mit Sicherheitsdaten

Start-up Butterfly Effect hinter KI-Agent "Manus" löst China-Team auf

KI-Verhaltenskodex: EU konkretisiert Vorgaben für Unternehmen

Neue KI-Architektur verspricht besseres "System 2-Denken"

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

OpenAIs Operator-Agent erhält o3-Upgrade für präzisere Browser-Steuerung

Mehr Struktur, höhere Erfolgsquote

Feintuning mit Sicherheitsdaten

Start-up Butterfly Effect hinter KI-Agent "Manus" löst China-Team auf

KI-Verhaltenskodex: EU konkretisiert Vorgaben für Unternehmen

Neue KI-Architektur verspricht besseres "System 2-Denken"