KI-Chatbots und Google nutzen komplett verschiedene Suchstrategien

Eine umfassende Analyse offenbart erhebliche Unterschiede zwischen traditionellen Suchmaschinen und generativen KI-Systemen bei Quellenauswahl und Inhaltsdarstellung.

Die Forschenden der Ruhr-Universität Bochum und des Max-Planck-Instituts für Softwaresysteme haben Googles organische Suche mit vier generativen Suchsystemen verglichen: Google AI Overview, Gemini 2.5 Flash mit Suche, GPT-4o-Search und GPT-4o mit aktiviertem Suchwerkzeug. Dabei analysierten sie über 4.600 Suchanfragen aus sechs verschiedenen Bereichen, darunter Politik, Produktbewertungen und Wissenschaft.

Dass KI-Suche nicht gleich KI-Suche ist, zeigt schon die Auswahl der beleuchteten Systeme: GPT-4o-Search führt grundsätzlich immer eine Websuche durch, bevor es antwortet. GPT-4o mit Suchwerkzeug entscheidet hingegen bei jeder Anfrage individuell, ob eine Internetsuche notwendig ist oder die Antwort aus dem internen Wissen des Modells stammen kann.

Violinplots der Linkanzahl pro Anfrage bei AIO, Gemini, GPT-Tool, GPT-Search und Organic über sechs Datensätze mit Mittelwerten und Verteilungen. — GPT-Tool nutzt am wenigsten Links, AIO ruft meist mehr Quellen ab, während die organische Suche auf zehn Ergebnisse begrenzt ist. | Bild: Kirsten et al.

KI-Systeme greifen auf andere Quellen zurück

Die Analyse zeigt erhebliche Unterschiede in der Quellenauswahl. Laut der Studie sind 53 Prozent der Websites, die Google AI Overview konsultiert, nicht in den Top 10 der organischen Suchergebnisse enthalten. Bei den Top-100 Ergebnissen sind es noch 27 Prozent.

Gestapeltes Balkendiagramm: Anteil der AIO-Links in organischen Rangbereichen 1–10, 11–30, 31–50, 51–100 und ohne Überlappung für sechs Datensätze. — Bei Produkt- und Wissenschaftsfragen liegen bis zu 60 % der AIO-Links außerhalb der Top 100, bei politischen Themen rund 55 % innerhalb der Top 10. | Bild: Kirsten et al.

Während 38 Prozent der organischen Suchergebnis-Domains zu den Top-1000 der meistbesuchten Websites gehören, sind es bei AI Overview nur 34 Prozent und bei GPT-Tool 35 Prozent. Die KI-Systeme nutzen also tendenziell weniger bekannte Websites als Quellen.

Besonders auffällig sind die Unterschiede beim Umfang der Recherche. GPT-Tool konsultiert durchschnittlich nur 0,4 Webseiten pro Anfrage und verlässt sich hauptsächlich auf sein internes Wissen. AI Overview hingegen nutzt 8,6 Webseiten, Gemini 8,5 und GPT-Search 4,1 Seiten pro Suchanfrage.

Kreisdiagramme der Domainkategorien (z. B. Corporate Entity, News Media, Encyclopedia) für Science-Anfragen bei AIO, Gemini, GPT-Tool, GPT-Search und Organic. — GPT-Tool bezieht bei Wissenschafts-Fragen fast ausschließlich Konzern-Websites, Organic hat den größten Anteil an Nachrichtenseiten, AIO und Gemini kombinieren Enzyklopädien, NGOs und Regierungsquellen. | Bild: Kirsten et al.

Streudiagramm: Mittlere Textlänge versus mittlere Linkanzahl pro Antwort für AIO, Gemini, GPT-Tool, GPT-Search und Organic über sechs Datensätze. — Es zeigt sich ein Zusammenhang zwischen Antwortlänge und Linkanzahl: GPT-Tool liefert die kompaktesten Texte mit wenigen Links, Gemini generiert tendenziell längere Antworten mit mehr Quellen, vor allem für Produktsuchen. | Bild: Kirsten et al.

Verschiedene Strategien, ähnliche Ergebnisse

Trotz der unterschiedlichen Recherchemethoden erreichen die Systeme eine ähnliche thematische Abdeckung. Die Forschenden verwendeten das LLooM-Framework zur Inhaltsanalyse und fanden heraus, dass GPT-Tool 71 Prozent der Themen abdeckt, die alle Suchsysteme zusammen behandeln.

Heatmap mit 15 Ungleichheitskonzepten (Spalten) und fünf Suchstrategien (Zeilen); gefärbt bei Konzeptabdeckung, zeigt Unterschiede in der Themenvielfalt. — Für die Beispielanfrage "What is an example of inequality?" decken AIO und Organic mit ihren Ergebnissen eine breite Palette von Konzepten ab, während GPT-Tool und Gemini weniger Aspekte erfassen. | Bild: Kirsten et al.

Dennoch gibt es wichtige Unterschiede im Detail. Bei mehrdeutigen Anfragen, die verschiedene Interpretationen zulassen, schneidet die organische Suche besser ab. Die Forschenden analysierten Anfragen, bei denen die verschiedenen Systeme nur wenige gemeinsame Themen behandeln. Hier erreicht die organische Suche eine durchschnittliche Abdeckung von 60 Prozent, AI Overview 51 Prozent und GPT-Tool nur 47 Prozent.

Aktuelle Ereignisse bereiten Probleme

Besonders deutlich werden die Schwächen bei aktuellen, zeitkritischen Anfragen. Die Wissenschaftler:innen analysierten 100 Trending-Queries vom 15. September 2025 und stellten fest, dass AI-Overviews nur in drei Prozent der Fälle generiert wurden.

Empfehlung

KI-Forschung

KI schlägt Neurowissenschaftler bei der Vorhersage von Forschungsergebnissen

GPT-Search erreichte die beste Themenabdeckung mit 72 Prozent, gefolgt von der organischen Suche mit 67 Prozent und Gemini mit 66 Prozent. GPT-Tool lag mit 51 Prozent deutlich zurück.

Violinplots der Linkanzahl pro Trending-Query bei AIO, Gemini, GPT-Tool, GPT-Search und Organic mit Mittel- und Medianwerten. — Bei trendgetriebenen Suchanfragen liefert Organic bis zu elf Links, Gemini durchschnittlich acht, GPT-Tool etwa fünf, GPT-Search rund sechs und AIO im Mittel sechs Links pro Anfrage. | Bild: Kirsten et al.

Ein Beispiel verdeutlicht die Problematik: Bei der Anfrage nach Ricky Hattons Todesursache hatte GPT-Tool keinen Zugang zu aktuellen Informationen und berichtete fälschlicherweise, dass der britische Boxer noch am Leben sei. Systeme, die hauptsächlich auf ihr internes Wissen setzen, haben bei aktuellen Ereignissen deutliche Nachteile.

Unberechenbare Ergebnisse bei wiederholten Anfragen

Die Wissenschaftler:innen untersuchten auch, wie verlässlich die Systeme bei wiederholten Anfragen sind. Dazu führten sie dieselben Experimente im Abstand von zwei Monaten durch und verglichen, welche Quellen die Systeme jeweils nutzten.

Die organische Suche erwies sich als am verlässlichsten: Bei 45 Prozent der Anfragen nutzte sie dieselben Quellen wie beim ersten Durchlauf. Gemini erreichte 40 Prozent Übereinstimmung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

AI Overview hingegen zeigte sich als sehr unberechenbar, mit nur 18 Prozent Übereinstimmung zwischen verschiedenen Zeitpunkten. Das bedeutet: Stellt man dieselbe Frage zu verschiedenen Zeiten, erhält man oft völlig andere Quellen als Grundlage für die Antwort.

Interessant ist jedoch, dass trotz der wechselnden Quellen die allgemeine Themenabdeckung über die Zeit stabil bleibt. Die Systeme nutzen also andere Websites, kommen aber zu ähnlichen inhaltlichen Ergebnissen.

Neue Bewertungsmaßstäbe nötig

Die Studie verdeutlicht, dass bestehende Bewertungsmaßstäbe für Suchsysteme nicht ausreichen, um die Veränderungen durch generative KI zu erfassen. Die Forschenden fordern die Entwicklung neuer Bewertungsmethoden, die Quellenvielfalt, inhaltliche Abdeckung und die Art der Informationszusammenfassung gemeinsam berücksichtigen.

Die Unterschiede in Quellenauswahl und Wissensnutzung können subtil beeinflussen, welchen Perspektiven und Fakten Nutzer ausgesetzt sind, selbst wenn die allgemeine Themenabdeckung ähnlich erscheint. Dies hat Auswirkungen auf Transparenz, Vertrauen und die Möglichkeit der Nutzer:innen, Informationen zu überprüfen.

Eine KI-Suchmaschine zu verwenden, ist mit zunehmender Verbreitung von KI-Chatbots wie ChatGPT auf der einen und der Integration von KI-Funktionen in traditionellen Suchmaschinen wie Google durch die AI Overviews oder den AI Mode keine aktive Entscheidung für Nutzer:innen mehr.

Gleichzeitig zeigen Studien, dass fundamentale Herausforderungen für Sprachmodelle durch Halluzinationen nach wie vor bestehen bleiben. In diesem wechselhaften Umfeld versuchen Unternehmen zudem, durch optimierte SEO-Strategien ihre Sichtbarkeit in KI-Suchen zu erhöhen.

KI-Chatbots und Google nutzen komplett verschiedene Suchstrategien

KI-Systeme greifen auf andere Quellen zurück

Verschiedene Strategien, ähnliche Ergebnisse

Aktuelle Ereignisse bereiten Probleme

KI schlägt Neurowissenschaftler bei der Vorhersage von Forschungsergebnissen

Unberechenbare Ergebnisse bei wiederholten Anfragen

Neue Bewertungsmaßstäbe nötig

Google-Suchchefin: KI-Antworten verdrängen Web-Traffic nicht

Webseiten-Zugriffe aus KI-Suchen nehmen laut Adobe-Studie rasant zu

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

KI-Chatbots und Google nutzen komplett verschiedene Suchstrategien

KI-Systeme greifen auf andere Quellen zurück

Verschiedene Strategien, ähnliche Ergebnisse

Aktuelle Ereignisse bereiten Probleme

KI schlägt Neurowissenschaftler bei der Vorhersage von Forschungsergebnissen

Unberechenbare Ergebnisse bei wiederholten Anfragen

Neue Bewertungsmaßstäbe nötig

Google-Suchchefin: KI-Antworten verdrängen Web-Traffic nicht

Webseiten-Zugriffe aus KI-Suchen nehmen laut Adobe-Studie rasant zu