Inhalt
summary Zusammenfassung

ChatGPT kann nun eigenständig komplexe Aufgaben erledigen, die von der Web-Recherche bis zur Erstellung von Präsentationen reichen. Die neue Funktion vereint frühere Forschungsansätze und gibt dem Chatbot Zugriff auf eine virtuelle Computerumgebung.

Anzeige

Laut OpenAI kann ChatGPT nun Aufgaben übernehmen, indem es proaktiv aus einem Werkzeugkasten sogenannter agentischer Fähigkeiten wählt und diese auf einem eigenen virtuellen Computer ausführt. Nutzer können demnach Anfragen stellen wie die Planung und den Einkauf von Zutaten für ein Frühstück, die Analyse von Wettbewerbern inklusive Erstellung einer Präsentation oder die Aufbereitung von Kalendereinträgen auf Basis aktueller Nachrichten.

Der "ChatGPT agent" soll dabei Webseiten navigieren, Ergebnisse filtern, bei Bedarf sicher zur Anmeldung auffordern, Code ausführen, Analysen durchführen und editierbare Dokumente wie Präsentationen oder Tabellen erstellen.

Kern der neuen Funktion ist laut OpenAI ein "einheitliches agentisches System". Es soll die Stärken früherer Entwicklungen wie "Operator" für die Interaktion mit Webseiten und "Deep Research" für die Informationssynthese mit der Intelligenz von ChatGPT verbinden. Zuvor konnten diese Systeme nicht kombiniert werden. Operator fehlten die Analysefähigkeiten, während Deep Research nicht mit Webseiten interagieren konnte. Durch die Integration sollen nun neue Anwendungsmöglichkeiten erschlossen werden.

Anzeige
Anzeige

Ein Werkzeugkasten für komplexe Aufgaben

OpenAI hat den ChatGPT-Agenten mit mehreren Werkzeugen ausgestattet, darunter ein visueller Browser für grafische Oberflächen, ein textbasierter Browser für einfachere Web-Abfragen, ein Terminal und direkter API-Zugriff. Die KI soll selbstständig das optimale Werkzeug für eine Aufgabe auswählen. Über Konnektoren kann der Agent zudem auf Anwendungen wie Gmail oder Github zugreifen.

Der gesamte Prozess findet in einer virtuellen Computerumgebung statt, die den Kontext über verschiedene Werkzeuge hinweg beibehält. Laut OpenAI behält der Nutzer dabei stets die Kontrolle. Der Agent soll vor Aktionen mit Konsequenzen um Erlaubnis fragen, und Nutzer können den Prozess jederzeit unterbrechen, den Browser übernehmen oder die Aufgabe stoppen. Ebenso soll der Agent proaktiv nachfragen, wenn er zur Erfüllung eines Ziels weitere Informationen benötigt.

Neue Bestleistungen in zahlreichen Benchmarks

Das Unternehmen gibt an, dass das Modell, das dem Agenten zugrunde liegt, neue Bestleistungen (State-of-the-Art, SOTA) in verschiedenen Benchmarks erreicht. Bei der "Humanity's Last Exam" (HLE), die KI-Leistung bei Fragen auf Expertenniveau misst, soll das Modell einen neuen SOTA-Wert von 41,6 erzielen. Im schwierigen Mathematik-Benchmark "FrontierMath" erreicht der Agent demnach eine Genauigkeit von 27,4 Prozent.

Auf dem "DSBench", der realistische Data-Science-Aufgaben bewertet, soll der ChatGPT-Agent die menschliche Leistung "deutlich" übertreffen. Auch beim "SpreadsheetBench", der die Bearbeitung von Tabellenkalkulationen misst, übertrifft der Agent laut OpenAI bestehende Modelle erheblich und erreicht einen Wert von 45,5 Prozent, verglichen mit 20,0 Prozent für Copilot in Excel. Am leistungsfähigsten ist jedoch weiterhin der Mensch.

Bild: OpenAI

Im Web-Navigations-Benchmark "BrowseComp" wurde ein neuer SOTA-Wert von 68,9 Prozent gemessen, was eine Verbesserung um 17,4 Prozentpunkte gegenüber "Deep Research" darstellt.

Empfehlung

Der ChatGPT AGent wird laut OpenAI ab sofort für Pro-, Plus- und Team-Nutzer ausgerollt, wobei Enterprise- und Education-Kunden in den kommenden Wochen folgen sollen. Der Zugang für den Europäischen Wirtschaftsraum und die Schweiz werde noch vorbereitet. Die Funktionalität zur Erstellung von Präsentationen befindet sich noch in der Beta-Phase, und die Ergebnisse können laut OpenAI in Formatierung und Feinschliff noch rudimentär wirken.

Pro-Nutzer erhalten 400 Nachrichten pro Monat, Plus und Team erhalten 40. Weitere Anfragen sollen sich erstmals dazukaufen lassen; hier deutet sich eine Veränderung in OpenAIs Geschäftsmodell an, die schon zuvor diskutiert wurde.

OpenAI adressiert neue Risiken und Sicherheitsbedenken

Mit der Fähigkeit, Aktionen im Web auszuführen, entstehen laut OpenAI neue Risiken, insbesondere im Umgang mit Nutzerdaten. Das Gesamtrisikoprofil sei höher. Ein besonderes Augenmerk legt das Unternehmen nach eigenen Angaben auf den Schutz vor "Prompt Injection", bei der Dritte versuchen, den Agenten durch versteckte Anweisungen auf Webseiten zu manipulieren.

Als Gegenmaßnahmen nennt OpenAI das Training des Modells zur Erkennung solcher Angriffe, die Überwachung der Systeme und die explizite Bestätigung durch den Nutzer vor folgenreichen Aktionen. Bestimmte kritische Aufgaben wie das Versenden von E-Mails erfordern eine aktive Überwachung ("Watch Mode"), und hochriskante Aufgaben wie Banküberweisungen soll das Modell von vornherein verweigern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Aufgrund der gesteigerten Fähigkeiten stuft OpenAI den Agenten unter seinem "Preparedness Framework" als "hohe biologische und chemische Fähigkeit" ein und aktiviert entsprechende Schutzmaßnahmen. Das Unternehmen gibt an, für den ChatGPT-Agenten die bislang umfassendste Sicherheitsarchitektur implementiert zu haben. Dazu zählen laut OpenAI ein detailliertes Bedrohungsmodell, spezielles Training zur Vermeidung von Missbrauch bei biologischen und chemischen Themen, kontinuierliche Überwachung durch Klassifizierer und Reasoning-Monitore sowie klar definierte Eskalationsprozesse bei Auffälligkeiten.

Bereits in der Entwicklung wurden externe Biosecurity-Expertinnen und -Experten, Sicherheitsinstitute und Forscher eingebunden, um Bewertungen und Schutzmaßnahmen zu validieren. Red-Teaming durch Fachleute aus dem Bereich Biologie soll die Schutzmechanismen unter realistischen Bedingungen testen. OpenAI betont, dass der Schutz mehrschichtig angelegt ist und auch Partner außerhalb des eigenen Unternehmens eingebunden werden, um neuen Risiken möglichst früh zu begegnen. Dies geschehe aus Vorsicht, auch wenn es keine definitiven Beweise für ein entsprechendes Schadenspotenzial gebe. Zusätzlich startet das Unternehmen ein Bug-Bounty-Programm, um Risiken in der Praxis zu identifizieren.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI stattet ChatGPT mit agentischen Fähigkeiten aus, sodass der Chatbot eigenständig komplexe Aufgaben wie Web-Recherche, Datenanalyse und das Erstellen von Präsentationen ausführen kann. Die neue Funktion kombiniert verschiedene Werkzeuge – darunter visuelle und textbasierte Browser, Terminal und API-Zugriff – in einer virtuellen Computerumgebung.
  • Das neue agentische System erreicht laut OpenAI Bestwerte in mehreren Benchmarks: Im Data-Science-Test DSBench übertrifft ChatGPT die menschliche Leistung, beim SpreadsheetBench erzielt das Modell 45,5 Prozent (im Vergleich zu 20,0 Prozent für Copilot in Excel). Auch bei Web-Navigation und Expertenfragen setzt der Agent neue SOTA-Marken.
  • OpenAI betont erhöhte Sicherheitsmaßnahmen: Der Agent fragt vor kritischen Aktionen nach Erlaubnis, erkennt laut Unternehmen Prompt-Injection-Angriffe und verweigert riskante Aufgaben wie Banküberweisungen. Ein mehrschichtiger Schutz mit externen Experten, kontinuierlicher Überwachung und Bug-Bounty-Programm soll neue Risiken abfedern.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!