OpenAI führt mit "Deep Research" eine neue KI-Funktion ein, die komplexe Recherchen selbstständig durchführen kann. Die Technologie ist zunächst für Pro-Nutzer von ChatGPT verfügbar.
OpenAI hat mit "Deep Research" eine neue Agentenfunktion für ChatGPT vorgestellt, die stundenlange Rechercheaufgaben in wenigen Minuten erledigen soll. Laut OpenAI nutzt das neue Feature, ähnlich wie die neuen o-Modelle, Reinforcement Learning und wurde laut OpenAI auf "schwierige Browsing- und Denkaufgaben in einer Reihe von Bereichen" trainiert, um zu lernen, große Mengen an Online-Informationen zu analysieren und zusammenzufassen.
Der Agent kann laut OpenAI selbstständig im Internet recherchieren und komplexe Aufgaben aus Bereichen wie Finanzen, Wissenschaft oder Technik bearbeiten. Dabei erstellt das System detaillierte Berichte mit Quellenangaben auf dem Niveau eines Research-Analysten.
Das Endergebnis wird als Bericht im Chat angezeigt, der in den kommenden Wochen durch eingebettete Bilder, Datenvisualisierungen und andere analytische Ausgaben ergänzt werden soll. Nach Angaben von OpenAI dauert die Suche derzeit zwischen 5 und 30 Minuten und ist besonders effizient bei der Suche nach Nischeninformationen, die das Durchsuchen zahlreicher Websites erfordern würden.
Halluzinationen und selbstbewusst vorgetragene Fehlschlüsse können laut OpenAI zwar immer noch vorkommen, seien aber seltener als bei den bisherigen Modellen. Auch bei der Formatierung gäbe es noch Verbesserungsbedarf.
OpenAI-Mitgründer Greg Brockman bezeichnet Deep Research als einen "extrem einfachen Agenten" – ein o3-Modell, das im Web browsen und Python-Code ausführen kann. OpenAI-Mitarbeiterinnen und -Mitarbeiter würden das Tool intern viel nutzen, insbesondere für "deutlich bessere E-Commerce-Suchen" - ein Fingerzeig in Richtung Google, das in Gemini Advanced ebenfalls eine "Deep Research"-Funktion anbietet.
Deutlich bessere Leistung in Benchmark-Tests
In Benchmarks erreichte Deep Research neue Bestwerte: Bei der Humanity's Last Exam Evaluation, die KI in einer Vielzahl von Fächern auf Expertenniveau testet, erzielte das System eine Genauigkeit von 26,6 Prozent - deutlich mehr als bisherige Modelle wie GPT-4o mit 3,3 Prozent. Im Vergleich zum Modell o1 zeigten sich die größten Verbesserungen in den Bereichen Chemie, Geistes- und Sozialwissenschaften sowie Mathematik.
Auch beim GAIA-Benchmark, der KI-Systeme anhand von 466 realen Aufgaben auf Fähigkeiten wie logisches Denken und multimodale Verarbeitung testet, übertraf Deep Research mit 72,57 Prozent den bisherigen Rekord von 63,64 Prozent.
Die Erfolgsrate von Deep Research korreliert laut OpenAI stärker mit dem wirtschaftlichen Wert einer Aufgabe als mit der Zeit, die ein Mensch dafür benötigen würde. Bei Aufgaben mit geringem wirtschaftlichen Wert erreicht das System eine Erfolgsquote von fast 20 Prozent, während es bei sehr wertvollen Aufgaben nur auf etwa neun Prozent kommt.
Bei der Bearbeitungszeit zeigt sich ein umgekehrtes Bild: Kurze Aufgaben (1-3 Stunden) meistert die KI mit einer Erfolgsquote von mehr als 20 Prozent, längere Aufgaben (4+ Stunden) konstant mit etwa 13–14 Prozent. Das deutet laut OpenAI darauf hin, dass KI-Modelle vor anderen Herausforderungen stehen als Menschen - was Menschen als zeitaufwendig empfinden, muss für KIs nicht unbedingt schwierig sein.
OpenAI-CEO Sam Altman schätzt, dass Deep Research „einen einstelligen Prozentsatz aller wirtschaftlich wertvollen Aufgaben auf der Welt“ bewältigen kann – ein Meilenstein, den er als „wild“ bezeichnet.
Noch ist "Deep Research" teuer
Die Funktion ist zunächst in OpenAIs ChatGPT Pro-Tarif für 200 Dollar mit bis zu 100 Anfragen pro Monat über die ChatGPT-Webversion verfügbar. OpenAI begründet diese Beschränkung mit dem hohen Rechenaufwand und plant eine schnellere, kostengünstigere Version mit einem kleineren Modell.
Das Unternehmen plant, den Zugang zu Plus und Team in etwa einem Monat zu erweitern und auch mobile und Desktop-Anwendungen zu unterstützen. Laut Altman wird die aktuelle Version etwa 10 Forschungsaufgaben pro Monat in der Plus-Stufe und "eine sehr geringe Anzahl" in der kostenlosen Stufe enthalten. Nutzer in der EU, im Vereinigten Königreich und in der Schweiz werden vorerst keinen Zugang zu dem Dienst haben.