OpenAI stellt Browser-steuernden KI-Agenten Operator vor

23. Januar 2025

OpenAI

OpenAI führt mit Operator einen KI-Agenten ein, der selbstständig Webbrowser bedienen kann. Der zunächst nur für US-ChatGPT-Pro-Nutzer verfügbare Dienst markiert einen weiteren Schritt in Richtung autonomer KI-Assistenten.

Operator kann Webseiten durch die Vision-Fähigkeiten von GPT-4o "sehen" und mit ihnen auf Basis von Screenshots durch Tippen, Klicken und Scrollen interagieren, ohne dass spezielle Integrationen der jeweiligen Apps oder Webseiten erforderlich sind.

Nutzer beschreiben einfach die gewünschte Aufgabe und der Operator erledigt den Rest in einem separaten Browserfenster, das in den ChatGPT-Chat eingebettet ist. Laut OpenAI kann Operator so eine Vielzahl von wiederkehrenden Browser-Aufgaben übernehmen, etwa Formulare ausfüllen oder Lebensmittel bestellen.

Das System ermöglicht die Personalisierung von Arbeitsabläufen durch das Hinzufügen von benutzerdefinierten Prompts - entweder für alle Seiten oder für bestimmte Seiten. Prompts können für den schnellen Zugriff auf der Startseite gespeichert werden. Mehrere Aufgaben können gleichzeitig in mehreren Chat-Fenstern ausgeführt werden.

Neues KI-Modell optimiert für Computer-Nutzung

Operator basiert auf einem neuen KI-Modell namens Computer-Using Agent (CUA), das die Bildverarbeitungsfähigkeiten von GPT-4o mit fortgeschrittenem Reasoning durch Reinforcement Learning kombiniert.

CUA verarbeitet Bildschirminhalte als Rohdaten und steuert einen virtuellen Cursor sowie die Tastatur. Das System arbeitet in einem iterativen Zyklus aus drei Phasen: In der Wahrnehmungsphase werden Screenshots des Bildschirms in den Kontext des Modells eingespeist.

In der Reasoning-Phase analysiert CUA die nächsten Schritte mittels Chain-of-Thought-Reasoning und berücksichtigt dabei aktuelle und vergangene Screenshots sowie Aktionen. Diese "inneren Monologe" verbessern die Leistung, indem sie dem Modell ermöglichen, Beobachtungen auszuwerten und sich dynamisch anzupassen. Das Prinzip ist von OpenAIs neuen o-Modellen bekannt.

In der Aktionsphase führt der Agent dann Klicks, Scroll-Bewegungen oder Texteingaben aus, bis die Aufgabe abgeschlossen ist oder Nutzereingaben erforderlich sind.

Video: OpenAI

In den WebArena- und WebVoyager-Benchmarks erzielt CUA laut OpenAI State-of-the-Art-Ergebnisse. Im WebArena, der die Performance auf imitierten Websites für E-Commerce, Content Management und Social Forums testet, erreicht das System 58,1 Prozent. Hier kann der Agent beispielsweise per Prompt in ein browserbasiertes CRM geleitet werden, aus dem er die zur Anfrage passenden Kundendaten heraussucht.

Im WebVoyager-Benchmark, der die Leistung auf realen Websites wie Amazon, GitHub und Google Maps misst, liegt die Erfolgsrate bei 87 Prozent. Bei komplexeren Aufgaben im OSWorld-Benchmark erreicht CUA 38,1 Prozent. Hier werden dem System komplexe Aufgaben gestellt, wie das automatische Kombinieren von PDFs aus einer E-Mail. Mehr Beispiele und Klickstrecken des Agenten gibt es hier.

Vergleichstabelle: Leistungsdaten von OpenAI CUA vs. vorherige SOTA-Systeme in OSWorld-, WebArena- und WebVoyager-Benchmarks. — CUA übertrifft laut OpenAI bisherige Leistungsstandards in verschiedenen Web- und Computerbenchmarks. Besonders bei realen Web-Interaktionen zeigt das System mit 87 Prozent Erfolgsrate seine Stärken. | Bild: OpenAI

Laut OpenAI hat der Agent noch Schwierigkeiten mit komplexen Schnittstellen wie Präsentationen oder Kalenderverwaltung. Das Unternehmen betont, dass es sich um einen Research Preview handelt, die auf der Grundlage von Nutzerfeedback weiterentwickelt, günstiger und weiter verbreitet werden soll.

Dreistufiges Sicherheitssystem soll Missbrauch verhindern

Wenn Operator auf Herausforderungen stößt oder Fehler macht, kann er laut OpenAI die Reasoning-Fähigkeiten des CUA-Modells nutzen, um sich selbst zu korrigieren. Bei unlösbaren Problemen übergibt er die Kontrolle an den Benutzer.

OpenAI hat Operator zudem mit drei Sicherheitsebenen ausgestattet. Bei kritischen Aktionen wie Logins oder Zahlungen fragt das System den Benutzer nach seiner Zustimmung. In einem speziellen "Watch Mode" für sensible Seiten wie E-Mail oder Finanzdienste überwacht der Benutzer alle Aktionen direkt.

Ein dediziertes Monitoring-Modell erkennt laut OpenAI verdächtiges Verhalten und kann Aufgaben unterbrechen. Zusätzlich schützt eine Erkennungspipeline vor bösartigen Webseiten, die versuchen könnten, den Agenten durch versteckte Eingabeaufforderungen oder Phishing-Versuche zu manipulieren.

Schrittweise Einführung geplant

Zunächst ist Operator nur für Pro-Nutzer in den USA verfügbar. OpenAI plant, den Dienst später auf Plus-, Team- und Enterprise-Nutzer auszuweiten und direkt in ChatGPT zu integrieren. Auch eine API-Version des zugrundeliegenden CUA-Modells für Entwickler ist in Vorbereitung.

Mit der Einführung von Operator tritt OpenAI in direkte Konkurrenz zu ähnlichen Produkten: Anthropic hatte zuvor Claude Computer Use vorgestellt, und Google arbeitet an Project Mariner. Beide Dienste sind bisher ebenfalls nur einem eingeschränkten Nutzerkreis zugänglich und arbeiten noch nicht zuverlässig über viele Aufgaben hinweg.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren