OpenAI rollt seine Deep Research-Funktion für alle ChatGPT Plus, Team, Education und Enterprise Nutzer aus.
Seit der ersten Einführung für Pro-Nutzer wurde Deep Research nach Angaben des Unternehmens deutlich verbessert: Es kann nun Bilder mit Quellenangaben in die Ausgabe einbetten und versteht hochgeladene Dateien besser.
Die Nutzung wird zunächst kontingentiert: Plus-, Team-, Enterprise- und Education-Nutzer erhalten 10 Deep Research-Anfragen pro Monat. Pro-Nutzer können hingegen auf 120 Anfragen zugreifen.
Deep Research wurde erst Anfang Februar erstmals für Pro-Nutzer veröffentlicht. Die Funktion durchsucht zahlreiche Online-Quellen und schreibt auf deren Basis detaillierte Berichte - macht dabei aber weiter die für Sprachmodelle typischen Fehler.
Deep Research halluziniert weniger als GPT-4o und o1
Parallel zur Einführung veröffentlicht OpenAI eine detaillierte Systemkarte, die Einblicke in die Entwicklung, Fähigkeiten und Risikobewertung des Systems gibt. Ein Fokus liegt dabei auf dem Halluzinationsrisiko - also der Gefahr, dass das Modell faktisch falsche Informationen generiert.
Die Evaluierung mit dem PersonQA-Datensatz zeigt deutliche Verbesserungen: Deep Research erreicht eine Genauigkeit von 0,86 - deutlich höher als die Werte von GPT-4o (0,50), o1 (0,55) und o3-mini (0,22).
Auch bei der Halluzinationsrate schneidet das neue Modell mit 0,13 besser ab als die Vergleichsmodelle GPT-4o (0,30), o1 (0,20) und o3-mini (0,15). OpenAI weist darauf hin, dass diese Rate die tatsächlichen Halluzinationen sogar überschätzt, da einige vermeintlich falsche Antworten auf veraltete Testdaten zurückzuführen seien.

Nach Angaben von OpenAI soll die intensive Nutzung der Online-Suche dazu beitragen, Fehler zu reduzieren. Zusätzlich belohnen spezielle Trainingsverfahren die Faktentreue und sollen das Modell davon abhalten, Falsches zu behaupten.
Ob der Wert trotz Verbesserungen gut ist, hängt von der Perspektive ab: Eine Fehlerquote von 13 Prozent auf möglicherweise mehreren Seiten Recherchebericht bedeutet vermutlich eine ganze Menge Fehler. Es bleibt daher festzuhalten, dass KI-Suchfunktionen vor allem bei sehr allgemeinen Themen oder für Experten auf ihrem Gebiet sinnvoll sind, die die generierten Inhalte schnell bewerten können.