Inhalt
summary Zusammenfassung

Update vom 26.02.2025:

Anzeige

OpenAI hat zudem eine Version von Advanced Voice auf Basis von GPT-4o-mini für alle kostenlosen ChatGPT-Nutzer freigegeben. Die Funktion soll laut OpenAI eine ähnliche Gesprächsqualität wie die GPT-4o-Version bieten, sei aber kostengünstiger im Betrieb.

Plus-Nutzer behalten weiterhin Zugriff auf Advanced Voice mit GPT-4o und einem fünfmal höheren täglichen Limit sowie zusätzlichen Video- und Screensharing-Funktionen. Pro-Nutzer haben weiterhin unbegrenzten Zugriff auf Advanced Voice und höhere Limits für Video und Screensharing.

Ursprünglicher Artikel vom 25.02.2025:

Anzeige
Anzeige

OpenAI rollt seine Deep Research-Funktion für alle ChatGPT Plus, Team, Education und Enterprise Nutzer aus.

Seit der ersten Einführung für Pro-Nutzer wurde Deep Research nach Angaben des Unternehmens deutlich verbessert: Es kann nun Bilder mit Quellenangaben in die Ausgabe einbetten und versteht hochgeladene Dateien besser.

Die Nutzung wird zunächst kontingentiert: Plus-, Team-, Enterprise- und Education-Nutzer erhalten 10 Deep Research-Anfragen pro Monat. Pro-Nutzer können hingegen auf 120 Anfragen zugreifen.

Deep Research wurde erst Anfang Februar erstmals für Pro-Nutzer veröffentlicht. Die Funktion durchsucht zahlreiche Online-Quellen und schreibt auf deren Basis detaillierte Berichte - macht dabei aber weiter die für Sprachmodelle typischen Fehler.

Deep Research halluziniert weniger als GPT-4o und o1

Parallel zur Einführung veröffentlicht OpenAI eine detaillierte Systemkarte, die Einblicke in die Entwicklung, Fähigkeiten und Risikobewertung des Systems gibt. Ein Fokus liegt dabei auf dem Halluzinationsrisiko - also der Gefahr, dass das Modell faktisch falsche Informationen generiert.

Empfehlung

Die Evaluierung mit dem PersonQA-Datensatz zeigt deutliche Verbesserungen: Deep Research erreicht eine Genauigkeit von 0,86 - deutlich höher als die Werte von GPT-4o (0,50), o1 (0,55) und o3-mini (0,22).

Auch bei der Halluzinationsrate schneidet das neue Modell mit 0,13 besser ab als die Vergleichsmodelle GPT-4o (0,30), o1 (0,20) und o3-mini (0,15). OpenAI weist darauf hin, dass diese Rate die tatsächlichen Halluzinationen sogar überschätzt, da einige vermeintlich falsche Antworten auf veraltete Testdaten zurückzuführen seien.

Tabelle: Vergleich von Genauigkeit und Halluzinationsrate bei vier KI-Modellen, Deep Research führt bei beiden Metriken.
Deep Research erreicht mit 0,86 die höchste Genauigkeit, während GPT-4.0 und o1 im mittleren Bereich liegen und o3-mini deutlich schwächer abschneidet. | Bild: OpenAI

Nach Angaben von OpenAI soll die intensive Nutzung der Online-Suche dazu beitragen, Fehler zu reduzieren. Zusätzlich belohnen spezielle Trainingsverfahren die Faktentreue und sollen das Modell davon abhalten, Falsches zu behaupten.

Ob der Wert trotz Verbesserungen gut ist, hängt von der Perspektive ab: Eine Fehlerquote von 13 Prozent auf möglicherweise mehreren Seiten Recherchebericht bedeutet vermutlich eine ganze Menge Fehler. Es bleibt daher festzuhalten, dass KI-Suchfunktionen vor allem bei sehr allgemeinen Themen oder für Experten auf ihrem Gebiet sinnvoll sind, die die generierten Inhalte schnell bewerten können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI rollt seine Deep Research-Funktion für alle ChatGPT Plus, Team, Education und Enterprise Nutzer aus. Die Nutzung wird zunächst kontingentiert: Plus-, Team-, Enterprise- und Education-Nutzer erhalten 10, Pro-Nutzer 120 Deep Research-Anfragen pro Monat.
  • Laut einer Evaluierung mit dem PersonQA-Datensatz erreicht Deep Research eine Genauigkeit von 0,86 und eine Halluzinationsrate von 0,13 - deutlich besser als Vergleichsmodelle wie GPT-4o. Die Online-Suchen und spezielle Trainingsverfahren sollen die Faktentreue erhöhen.
  • Trotz der Verbesserungen bleibt fraglich, ob eine Fehlerrate von 13 Prozent auf möglicherweise mehrseitigen Forschungstexten akzeptabel ist.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!