Inhalt
summary Zusammenfassung

OpenAI führt mit Operator einen KI-Agenten ein, der selbstständig Webbrowser bedienen kann. Der zunächst nur für US-ChatGPT-Pro-Nutzer verfügbare Dienst markiert einen weiteren Schritt in Richtung autonomer KI-Assistenten.

Anzeige

Operator kann Webseiten durch die Vision-Fähigkeiten von GPT-4o "sehen" und mit ihnen auf Basis von Screenshots durch Tippen, Klicken und Scrollen interagieren, ohne dass spezielle Integrationen der jeweiligen Apps oder Webseiten erforderlich sind.

Nutzer beschreiben einfach die gewünschte Aufgabe und der Operator erledigt den Rest in einem separaten Browserfenster, das in den ChatGPT-Chat eingebettet ist. Laut OpenAI kann Operator so eine Vielzahl von wiederkehrenden Browser-Aufgaben übernehmen, etwa Formulare ausfüllen oder Lebensmittel bestellen.

Das System ermöglicht die Personalisierung von Arbeitsabläufen durch das Hinzufügen von benutzerdefinierten Prompts - entweder für alle Seiten oder für bestimmte Seiten. Prompts können für den schnellen Zugriff auf der Startseite gespeichert werden. Mehrere Aufgaben können gleichzeitig in mehreren Chat-Fenstern ausgeführt werden.

Anzeige
Anzeige

Neues KI-Modell optimiert für Computer-Nutzung

Operator basiert auf einem neuen KI-Modell namens Computer-Using Agent (CUA), das die Bildverarbeitungsfähigkeiten von GPT-4o mit fortgeschrittenem Reasoning durch Reinforcement Learning kombiniert.

CUA verarbeitet Bildschirminhalte als Rohdaten und steuert einen virtuellen Cursor sowie die Tastatur. Das System arbeitet in einem iterativen Zyklus aus drei Phasen: In der Wahrnehmungsphase werden Screenshots des Bildschirms in den Kontext des Modells eingespeist.

In der Reasoning-Phase analysiert CUA die nächsten Schritte mittels Chain-of-Thought-Reasoning und berücksichtigt dabei aktuelle und vergangene Screenshots sowie Aktionen. Diese "inneren Monologe" verbessern die Leistung, indem sie dem Modell ermöglichen, Beobachtungen auszuwerten und sich dynamisch anzupassen. Das Prinzip ist von OpenAIs neuen o-Modellen bekannt.

In der Aktionsphase führt der Agent dann Klicks, Scroll-Bewegungen oder Texteingaben aus, bis die Aufgabe abgeschlossen ist oder Nutzereingaben erforderlich sind.

Video: OpenAI

Empfehlung

In den WebArena- und WebVoyager-Benchmarks erzielt CUA laut OpenAI State-of-the-Art-Ergebnisse. Im WebArena, der die Performance auf imitierten Websites für E-Commerce, Content Management und Social Forums testet, erreicht das System 58,1 Prozent. Hier kann der Agent beispielsweise per Prompt in ein browserbasiertes CRM geleitet werden, aus dem er die zur Anfrage passenden Kundendaten heraussucht.

Im WebVoyager-Benchmark, der die Leistung auf realen Websites wie Amazon, GitHub und Google Maps misst, liegt die Erfolgsrate bei 87 Prozent. Bei komplexeren Aufgaben im OSWorld-Benchmark erreicht CUA 38,1 Prozent. Hier werden dem System komplexe Aufgaben gestellt, wie das automatische Kombinieren von PDFs aus einer E-Mail. Mehr Beispiele und Klickstrecken des Agenten gibt es hier.

Vergleichstabelle: Leistungsdaten von OpenAI CUA vs. vorherige SOTA-Systeme in OSWorld-, WebArena- und WebVoyager-Benchmarks.
CUA übertrifft laut OpenAI bisherige Leistungsstandards in verschiedenen Web- und Computerbenchmarks. Besonders bei realen Web-Interaktionen zeigt das System mit 87 Prozent Erfolgsrate seine Stärken. | Bild: OpenAI

Laut OpenAI hat der Agent noch Schwierigkeiten mit komplexen Schnittstellen wie Präsentationen oder Kalenderverwaltung. Das Unternehmen betont, dass es sich um einen Research Preview handelt, die auf der Grundlage von Nutzerfeedback weiterentwickelt, günstiger und weiter verbreitet werden soll.

Dreistufiges Sicherheitssystem soll Missbrauch verhindern

Wenn Operator auf Herausforderungen stößt oder Fehler macht, kann er laut OpenAI die Reasoning-Fähigkeiten des CUA-Modells nutzen, um sich selbst zu korrigieren. Bei unlösbaren Problemen übergibt er die Kontrolle an den Benutzer.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI hat Operator zudem mit drei Sicherheitsebenen ausgestattet. Bei kritischen Aktionen wie Logins oder Zahlungen fragt das System den Benutzer nach seiner Zustimmung. In einem speziellen "Watch Mode" für sensible Seiten wie E-Mail oder Finanzdienste überwacht der Benutzer alle Aktionen direkt.

Ein dediziertes Monitoring-Modell erkennt laut OpenAI verdächtiges Verhalten und kann Aufgaben unterbrechen. Zusätzlich schützt eine Erkennungspipeline vor bösartigen Webseiten, die versuchen könnten, den Agenten durch versteckte Eingabeaufforderungen oder Phishing-Versuche zu manipulieren.

Schrittweise Einführung geplant

Zunächst ist Operator nur für Pro-Nutzer in den USA verfügbar. OpenAI plant, den Dienst später auf Plus-, Team- und Enterprise-Nutzer auszuweiten und direkt in ChatGPT zu integrieren. Auch eine API-Version des zugrundeliegenden CUA-Modells für Entwickler ist in Vorbereitung.

Mit der Einführung von Operator tritt OpenAI in direkte Konkurrenz zu ähnlichen Produkten: Anthropic hatte zuvor Claude Computer Use vorgestellt, und Google arbeitet an Project Mariner. Beide Dienste sind bisher ebenfalls nur einem eingeschränkten Nutzerkreis zugänglich und arbeiten noch nicht zuverlässig über viele Aufgaben hinweg.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI führt mit Operator einen KI-Agenten ein, der selbstständig Webbrowser bedienen kann. Das zunächst nur für US-ChatGPT-Pro-Nutzer verfügbare System markiert einen weiteren Schritt in Richtung autonomer KI-Assistenten.
  • Operator kann Webseiten durch Vision-Fähigkeiten "sehen" und mit ihnen durch Tippen, Klicken und Scrollen interagieren. Nutzer beschreiben die gewünschte Aufgabe und der Agent erledigt den Rest, etwa Formulare ausfüllen oder Lebensmittel bestellen.
  • Das System basiert auf einem neuen KI-Modell namens Computer-Using Agent (CUA), das Bildverarbeitung mit fortgeschrittenem Reasoning kombiniert. Ein dreistufiges Sicherheitssystem mit Nutzerbestätigung, Überwachungsmodus und Monitoring soll Missbrauch verhindern.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!