Inhalt
summary Zusammenfassung

OpenAI rollt seine Deep Research-Funktion für alle ChatGPT Plus, Team, Education und Enterprise Nutzer aus.

Anzeige

Seit der ersten Einführung für Pro-Nutzer wurde Deep Research nach Angaben des Unternehmens deutlich verbessert: Es kann nun Bilder mit Quellenangaben in die Ausgabe einbetten und versteht hochgeladene Dateien besser.

Die Nutzung wird zunächst kontingentiert: Plus-, Team-, Enterprise- und Education-Nutzer erhalten 10 Deep Research-Anfragen pro Monat. Pro-Nutzer können hingegen auf 120 Anfragen zugreifen.

Deep Research wurde erst Anfang Februar erstmals für Pro-Nutzer veröffentlicht. Die Funktion durchsucht zahlreiche Online-Quellen und schreibt auf deren Basis detaillierte Berichte - macht dabei aber weiter die für Sprachmodelle typischen Fehler.

Anzeige
Anzeige

Deep Research halluziniert weniger als GPT-4o und o1

Parallel zur Einführung veröffentlicht OpenAI eine detaillierte Systemkarte, die Einblicke in die Entwicklung, Fähigkeiten und Risikobewertung des Systems gibt. Ein Fokus liegt dabei auf dem Halluzinationsrisiko - also der Gefahr, dass das Modell faktisch falsche Informationen generiert.

Die Evaluierung mit dem PersonQA-Datensatz zeigt deutliche Verbesserungen: Deep Research erreicht eine Genauigkeit von 0,86 - deutlich höher als die Werte von GPT-4o (0,50), o1 (0,55) und o3-mini (0,22).

Auch bei der Halluzinationsrate schneidet das neue Modell mit 0,13 besser ab als die Vergleichsmodelle GPT-4o (0,30), o1 (0,20) und o3-mini (0,15). OpenAI weist darauf hin, dass diese Rate die tatsächlichen Halluzinationen sogar überschätzt, da einige vermeintlich falsche Antworten auf veraltete Testdaten zurückzuführen seien.

Tabelle: Vergleich von Genauigkeit und Halluzinationsrate bei vier KI-Modellen, Deep Research führt bei beiden Metriken.
Deep Research erreicht mit 0,86 die höchste Genauigkeit, während GPT-4.0 und o1 im mittleren Bereich liegen und o3-mini deutlich schwächer abschneidet. | Bild: OpenAI

Nach Angaben von OpenAI soll die intensive Nutzung der Online-Suche dazu beitragen, Fehler zu reduzieren. Zusätzlich belohnen spezielle Trainingsverfahren die Faktentreue und sollen das Modell davon abhalten, Falsches zu behaupten.

Ob der Wert trotz Verbesserungen gut ist, hängt von der Perspektive ab: Eine Fehlerquote von 13 Prozent auf möglicherweise mehreren Seiten Recherchebericht bedeutet vermutlich eine ganze Menge Fehler. Es bleibt daher festzuhalten, dass KI-Suchfunktionen vor allem bei sehr allgemeinen Themen oder für Experten auf ihrem Gebiet sinnvoll sind, die die generierten Inhalte schnell bewerten können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI rollt seine Deep Research-Funktion für alle ChatGPT Plus, Team, Education und Enterprise Nutzer aus. Die Nutzung wird zunächst kontingentiert: Plus-, Team-, Enterprise- und Education-Nutzer erhalten 10, Pro-Nutzer 120 Deep Research-Anfragen pro Monat.
  • Laut einer Evaluierung mit dem PersonQA-Datensatz erreicht Deep Research eine Genauigkeit von 0,86 und eine Halluzinationsrate von 0,13 - deutlich besser als Vergleichsmodelle wie GPT-4o. Die Online-Suchen und spezielle Trainingsverfahren sollen die Faktentreue erhöhen.
  • Trotz der Verbesserungen bleibt fraglich, ob eine Fehlerrate von 13 Prozent auf möglicherweise mehrseitigen Forschungstexten akzeptabel ist.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!