Gemini Deep Research: Googles neuer KI-Recherche-Assistent halluziniert im Test

Google hat Gemini Advanced um eine neue Recherchefunktion erweitert. Ein erster Test zeigt Potenzial, aber auch deutliche Schwächen des KI-gestützten Forschungsassistenten.

Google hat mit "Deep Research" eine neue Funktion für Gemini Advanced vorgestellt, die tiefergehende Internet-Recherchen über den KI-Assistenten ermöglichen soll. Die aktuell für Gemini 1.5 Pro verfügbare Beta-Funktion plant zunächst eine Recherchestrategie, die Nutzer noch manuell anpassen können.

Das System durchsucht anschließend das Internet nach relevanten Quellen, analysiert diese und erstellt einen Bericht mit Zusammenfassungen aller wichtigen Themen inklusive Quellenangaben. Damit positioniert Google seinen Assistenten ähnlich wie Perplexity als KI-gestütztes Recherchewerkzeug.

Praxistest zeigt Schwächen bei der Faktengenauigkeit

In meinem Test sollte das System Informationen über die Architektur von OpenAIs o1-Modell zusammentragen. Gemini entwickelte dafür einen sechsstufigen Rechercheplan, der unter anderem die Suche nach Research Papers, Artikeln, Patenten und Präsentationen von OpenAI umfasste.

Gemini entwirft einen Rechercheplan, den ich manuell anpassen kann. Bild: Google / Gemini

Das System durchsuchte je nach Anfrage zwischen 22 und 70 Webseiten und erstellte einen umfassenden Bericht. Während die Quellenauswahl und die grobe Einordnung bekannter Fakten über das o1-Modell gelangen, zeigten sich in den Details erhebliche Schwächen.

Gemini durchsucht je nach Aufgabe unterschiedlich viele Quellen. Bild: Google / Gemini

Nach wenigen Minuten ist der umfassende Recherche-Bericht fertig. Bild: Google / Gemini

So behauptete das System fälschlicherweise, OpenAI o1 nutze die Quiet-STaR-Methode.

Gemini behauptet, OpenAI habe Quiet-StaR genutzt. Das geht jedoch so nicht aus der Quelle hervor. Bild: Google / Gemini

Ein Blick in die zitierte Quelle zeigte jedoch, dass dort lediglich Quiet-STaR als möglicher Ansatz für ein besseres Chain-of-Thought-Training diskutiert wurde. Der Autor betont sogar explizit, dass es sich lediglich um Vermutungen handelt, wie OpenAI o1 trainiert habe.

Die Quelle erklärt an mehreren Stellen deutlich, dass es sich nur um Vermutungen handelt. Bild: Metadocs.co

Nützlich als Quellensammler, problematisch bei Details

Während also Sprachmodelle in bestimmten Bereichen trotz gelegentlicher Halluzinationen eine gute Unterstützung bieten können, zeigt der Test, dass KI-Rechercheassistenten zwar bei der Sammlung relevanter Quellen helfen können, der Aufwand für die notwendige Faktenprüfung aber den Nutzen übersteigen kann.

Best Practices für den effektiven Einsatz dieser Systeme fehlen noch. Nutzer müssen immer damit rechnen, dass die generierten Berichte mit hoher Wahrscheinlichkeit auch Fehlinformationen enthalten. Das weiß auch Google und vermerkt unter dem Chatfenster: "Gemini can make mistakes, including about people, so double-check it."

Empfehlung

KI in der Praxis

Anthropic CEO kündigt "Virtual Collaborators" an und glaubt an schnellen KI-Fortschritt

Gemini 1.5 Pro mit Deep Research ist für Gemini Advanced Abonnenten verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Gemini Deep Research: Googles neuer KI-Recherche-Assistent halluziniert im Test

Praxistest zeigt Schwächen bei der Faktengenauigkeit

Nützlich als Quellensammler, problematisch bei Details

Anthropic CEO kündigt "Virtual Collaborators" an und glaubt an schnellen KI-Fortschritt

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Pentagon zahlt 800 Millionen Dollar für KI-Projekte mit Anthropic, OpenAI, Google und xAI

Google veröffentlicht Colab AI

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Gemini Deep Research: Googles neuer KI-Recherche-Assistent halluziniert im Test

Praxistest zeigt Schwächen bei der Faktengenauigkeit

Nützlich als Quellensammler, problematisch bei Details

Artikel teilen

Bankverbindung