ChatGPT-Operator surft selbstständig durchs Netz, macht aber noch zu viele Fehler
Kurz & Knapp
- Erste Nutzer:innen testen OpenAIs neuen ChatGPT-Operator und demonstrieren Anwendungsfälle wie Jobsuche, Testen von Web-Apps und Erledigen mehrerer Aufgaben gleichzeitig. Dabei zeigen sich Stärken wie Benutzerfreundlichkeit und Verständnis von Konzepten.
- Bei komplexeren Aufgaben wie der Recherche von Influencer-Daten versagt der Operator jedoch noch: Er sucht an den falschen Stellen, hat Probleme mit Tabellenkalkulationen und "halluziniert" Informationen. Auch die Arbeitsgeschwindigkeit ist zu langsam.
- Insgesamt erfüllt der Operator die Prämisse, selbstständig durchs Internet navigieren zu können, besser als frühere Ansätze. Allerdings macht er noch zu viele Fehler für den verlässlichen Einsatz bei wichtigen Aufgaben ohne ständige menschliche Überwachung.
Automatisiert der ChatGPT-Operator endlich die Browserbenutzung? Erste Tests von Nutzer:innen machen Hoffnung darauf, mit natürlicher Sprache durchs Web zu navigieren, zeigen jedoch auch die kaum überraschenden Probleme auf.
Nach der Veröffentlichung des Agentensystems ChatGPT Operator von OpenAI finden sich auf Social Media und an anderen Stellen des Internets erste Erfahrungsberichte US-amerikanischer Pro-Nutzer:innen, die bislang als einzige Zugriff auf das Werkzeug haben.
Während des Livestreams, in dem CEO Sam Altman zusammen mit OpenAI-Entwicklern den ChatGPT Operator präsentierte, zeigten sie verschiedene, für derartige KI-Agenten gern genutzte Anwendungsfälle: Tischreservierung im Restaurant, Reiseplanung, Pizzabestellung. Aber wie sieht es mit spezifischeren Anwendungsfällen aus? Wir haben uns umgeschaut und Antworten gesammelt.
Operator sucht Stellenanzeigen und testet Web-Apps
Ein ausführlicher Erfahrungsbericht eines Reddit-Nutzers deckt Schwächen des ChatGPT Operators auf. Der Agent sollte eine Liste von 50 populären Finanz-Influencer:innen auf YouTube erstellen, inklusive deren LinkedIn-Profilen, E-Mail-Adressen und Zusammenfassungen ihrer Kanäle.
Zunächst war er beeindruckt, wie der Operator selbstständig einen Webbrowser öffnete. Statt auf YouTube oder einer anderen Social-Media-Plattform suchte er jedoch auf Bing nach Influencer:innen. Nach kurzer Zeit zeigten sich weitere Probleme: Der Agent hatte Schwierigkeiten, eine geeignete Tabellenkalkulation zu finden und begann, Informationen "schlimmer als GPT-3" zu halluzinieren.

Nach 20 Minuten brach der Nutzer den Test ab. Das Ergebnis: eine unvollständige Tabelle auf einer zwielichtigen Office-Website mit nur 18 statt 50 Influencer:innen und falschen Kontaktdaten. Auch die Arbeitsgeschwindigkeit des Operators sei zu langsam gewesen.
Operator angeblich bereits von manchen Websites geblockt
Dem Posting eines Users im r/webdev-Subreddit zufolge hätten manche Websites die Nutzung des ChatGPT Operators bereits geblockt. Massenhaft Preisangaben von Ebay zu sammeln sei mit dem Operator etwa nicht möglich.
Wie diese Sperre technisch vonstattengehen soll, ist jedoch noch unklar. Andere OpenAI-Bots werden in der Regel über die robots.txt einer Website ausgeschlossen, für den Operator existiert noch kein entsprechender Parameter. Der Operator besucht Webseiten wohl über einen virtuellen Chrome-Browser und die IP eines Microsoft-Azure-Servers.
Da OpenAI in der offiziellen Präsentation als Beispielaufgabe des Operators die Suche nach Produkten auf Ebay zeigt, ist davon auszugehen, dass es sich im Fall des Reddit-Nutzers nicht um eine konkrete Blockade des Operators handelt, sondern eher allgemeine Schutzmechanismen gegen Bots greifen.
Auch Reddit selbst scheint Maßnahmen gegen solche automatisierten Zugriffe ergriffen zu haben. X-Nutzer Rowan Cheung demonstriert in einer Bildschirmaufnahme, wie der Operator die Blockade durch eine Bing-Suche eigenständig umgeht.
Video: Rowan Cheung/X
Auf den ersten Blick beeindruckend, auf den zweiten nicht
Generell scheint der ChatGPT-Operator nach diesen Erfahrungsberichten die Grundprämisse zu erfüllen, selbstständig durch das Internet navigieren zu können. Dass das besser funktioniert als bei den bisherigen Ansätzen, liegt vermutlich unter anderem daran, dass das System nicht nur auf das DOM einer Webseite zurückgreift, sondern zusätzlich Screenshots durch das multimodale GPT-4o auswertet.
Wie bei älteren Agentensystemen zeigen sich Tester:innen im ersten Augenblick beeindruckt von der Selbstständigkeit. Noch macht der Operator jedoch zu viele Fehler, als dass sich menschliche Anwender:innen bei wichtigen Aufgaben auf ihn verlassen könnten, ohne ihn permanent überwachen zu müssen.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.