Automatisiert der ChatGPT-Operator endlich die Browserbenutzung? Erste Tests von Nutzer:innen machen Hoffnung darauf, mit natürlicher Sprache durchs Web zu navigieren, zeigen jedoch auch die kaum überraschenden Probleme auf.
Nach der Veröffentlichung des Agentensystems ChatGPT Operator von OpenAI finden sich auf Social Media und an anderen Stellen des Internets erste Erfahrungsberichte US-amerikanischer Pro-Nutzer:innen, die bislang als einzige Zugriff auf das Werkzeug haben.
Während des Livestreams, in dem CEO Sam Altman zusammen mit OpenAI-Entwicklern den ChatGPT Operator präsentierte, zeigten sie verschiedene, für derartige KI-Agenten gern genutzte Anwendungsfälle: Tischreservierung im Restaurant, Reiseplanung, Pizzabestellung. Aber wie sieht es mit spezifischeren Anwendungsfällen aus? Wir haben uns umgeschaut und Antworten gesammelt.
Operator sucht Stellenanzeigen und testet Web-Apps
Ein ausführlicher Erfahrungsbericht eines Reddit-Nutzers deckt Schwächen des ChatGPT Operators auf. Der Agent sollte eine Liste von 50 populären Finanz-Influencer:innen auf YouTube erstellen, inklusive deren LinkedIn-Profilen, E-Mail-Adressen und Zusammenfassungen ihrer Kanäle.
Zunächst war er beeindruckt, wie der Operator selbstständig einen Webbrowser öffnete. Statt auf YouTube oder einer anderen Social-Media-Plattform suchte er jedoch auf Bing nach Influencer:innen. Nach kurzer Zeit zeigten sich weitere Probleme: Der Agent hatte Schwierigkeiten, eine geeignete Tabellenkalkulation zu finden und begann, Informationen "schlimmer als GPT-3" zu halluzinieren.
Nach 20 Minuten brach der Nutzer den Test ab. Das Ergebnis: eine unvollständige Tabelle auf einer zwielichtigen Office-Website mit nur 18 statt 50 Influencer:innen und falschen Kontaktdaten. Auch die Arbeitsgeschwindigkeit des Operators sei zu langsam gewesen.
Operator angeblich bereits von manchen Websites geblockt
Dem Posting eines Users im r/webdev-Subreddit zufolge hätten manche Websites die Nutzung des ChatGPT Operators bereits geblockt. Massenhaft Preisangaben von Ebay zu sammeln sei mit dem Operator etwa nicht möglich.
Wie diese Sperre technisch vonstattengehen soll, ist jedoch noch unklar. Andere OpenAI-Bots werden in der Regel über die robots.txt einer Website ausgeschlossen, für den Operator existiert noch kein entsprechender Parameter. Der Operator besucht Webseiten wohl über einen virtuellen Chrome-Browser und die IP eines Microsoft-Azure-Servers.
Da OpenAI in der offiziellen Präsentation als Beispielaufgabe des Operators die Suche nach Produkten auf Ebay zeigt, ist davon auszugehen, dass es sich im Fall des Reddit-Nutzers nicht um eine konkrete Blockade des Operators handelt, sondern eher allgemeine Schutzmechanismen gegen Bots greifen.
Auch Reddit selbst scheint Maßnahmen gegen solche automatisierten Zugriffe ergriffen zu haben. X-Nutzer Rowan Cheung demonstriert in einer Bildschirmaufnahme, wie der Operator die Blockade durch eine Bing-Suche eigenständig umgeht.
Auf den ersten Blick beeindruckend, auf den zweiten nicht
Generell scheint der ChatGPT-Operator nach diesen Erfahrungsberichten die Grundprämisse zu erfüllen, selbstständig durch das Internet navigieren zu können. Dass das besser funktioniert als bei den bisherigen Ansätzen, liegt vermutlich unter anderem daran, dass das System nicht nur auf das DOM einer Webseite zurückgreift, sondern zusätzlich Screenshots durch das multimodale GPT-4o auswertet.
Wie bei älteren Agentensystemen zeigen sich Tester:innen im ersten Augenblick beeindruckt von der Selbstständigkeit. Noch macht der Operator jedoch zu viele Fehler, als dass sich menschliche Anwender:innen bei wichtigen Aufgaben auf ihn verlassen könnten, ohne ihn permanent überwachen zu müssen.