Eine umfassende Analyse offenbart erhebliche Unterschiede zwischen traditionellen Suchmaschinen und generativen KI-Systemen bei Quellenauswahl und Inhaltsdarstellung.
Die Forschenden der Ruhr-Universität Bochum und des Max-Planck-Instituts für Softwaresysteme haben Googles organische Suche mit vier generativen Suchsystemen verglichen: Google AI Overview, Gemini 2.5 Flash mit Suche, GPT-4o-Search und GPT-4o mit aktiviertem Suchwerkzeug. Dabei analysierten sie über 4.600 Suchanfragen aus sechs verschiedenen Bereichen, darunter Politik, Produktbewertungen und Wissenschaft.
Dass KI-Suche nicht gleich KI-Suche ist, zeigt schon die Auswahl der beleuchteten Systeme: GPT-4o-Search führt grundsätzlich immer eine Websuche durch, bevor es antwortet. GPT-4o mit Suchwerkzeug entscheidet hingegen bei jeder Anfrage individuell, ob eine Internetsuche notwendig ist oder die Antwort aus dem internen Wissen des Modells stammen kann.

KI-Systeme greifen auf andere Quellen zurück
Die Analyse zeigt erhebliche Unterschiede in der Quellenauswahl. Laut der Studie sind 53 Prozent der Websites, die Google AI Overview konsultiert, nicht in den Top 10 der organischen Suchergebnisse enthalten. Bei den Top-100 Ergebnissen sind es noch 27 Prozent.

Während 38 Prozent der organischen Suchergebnis-Domains zu den Top-1000 der meistbesuchten Websites gehören, sind es bei AI Overview nur 34 Prozent und bei GPT-Tool 35 Prozent. Die KI-Systeme nutzen also tendenziell weniger bekannte Websites als Quellen.
Besonders auffällig sind die Unterschiede beim Umfang der Recherche. GPT-Tool konsultiert durchschnittlich nur 0,4 Webseiten pro Anfrage und verlässt sich hauptsächlich auf sein internes Wissen. AI Overview hingegen nutzt 8,6 Webseiten, Gemini 8,5 und GPT-Search 4,1 Seiten pro Suchanfrage.


Verschiedene Strategien, ähnliche Ergebnisse
Trotz der unterschiedlichen Recherchemethoden erreichen die Systeme eine ähnliche thematische Abdeckung. Die Forschenden verwendeten das LLooM-Framework zur Inhaltsanalyse und fanden heraus, dass GPT-Tool 71 Prozent der Themen abdeckt, die alle Suchsysteme zusammen behandeln.

Dennoch gibt es wichtige Unterschiede im Detail. Bei mehrdeutigen Anfragen, die verschiedene Interpretationen zulassen, schneidet die organische Suche besser ab. Die Forschenden analysierten Anfragen, bei denen die verschiedenen Systeme nur wenige gemeinsame Themen behandeln. Hier erreicht die organische Suche eine durchschnittliche Abdeckung von 60 Prozent, AI Overview 51 Prozent und GPT-Tool nur 47 Prozent.
Aktuelle Ereignisse bereiten Probleme
Besonders deutlich werden die Schwächen bei aktuellen, zeitkritischen Anfragen. Die Wissenschaftler:innen analysierten 100 Trending-Queries vom 15. September 2025 und stellten fest, dass AI-Overviews nur in drei Prozent der Fälle generiert wurden.
GPT-Search erreichte die beste Themenabdeckung mit 72 Prozent, gefolgt von der organischen Suche mit 67 Prozent und Gemini mit 66 Prozent. GPT-Tool lag mit 51 Prozent deutlich zurück.

Ein Beispiel verdeutlicht die Problematik: Bei der Anfrage nach Ricky Hattons Todesursache hatte GPT-Tool keinen Zugang zu aktuellen Informationen und berichtete fälschlicherweise, dass der britische Boxer noch am Leben sei. Systeme, die hauptsächlich auf ihr internes Wissen setzen, haben bei aktuellen Ereignissen deutliche Nachteile.
Unberechenbare Ergebnisse bei wiederholten Anfragen
Die Wissenschaftler:innen untersuchten auch, wie verlässlich die Systeme bei wiederholten Anfragen sind. Dazu führten sie dieselben Experimente im Abstand von zwei Monaten durch und verglichen, welche Quellen die Systeme jeweils nutzten.
Die organische Suche erwies sich als am verlässlichsten: Bei 45 Prozent der Anfragen nutzte sie dieselben Quellen wie beim ersten Durchlauf. Gemini erreichte 40 Prozent Übereinstimmung.
AI Overview hingegen zeigte sich als sehr unberechenbar, mit nur 18 Prozent Übereinstimmung zwischen verschiedenen Zeitpunkten. Das bedeutet: Stellt man dieselbe Frage zu verschiedenen Zeiten, erhält man oft völlig andere Quellen als Grundlage für die Antwort.
Interessant ist jedoch, dass trotz der wechselnden Quellen die allgemeine Themenabdeckung über die Zeit stabil bleibt. Die Systeme nutzen also andere Websites, kommen aber zu ähnlichen inhaltlichen Ergebnissen.
Neue Bewertungsmaßstäbe nötig
Die Studie verdeutlicht, dass bestehende Bewertungsmaßstäbe für Suchsysteme nicht ausreichen, um die Veränderungen durch generative KI zu erfassen. Die Forschenden fordern die Entwicklung neuer Bewertungsmethoden, die Quellenvielfalt, inhaltliche Abdeckung und die Art der Informationszusammenfassung gemeinsam berücksichtigen.
Die Unterschiede in Quellenauswahl und Wissensnutzung können subtil beeinflussen, welchen Perspektiven und Fakten Nutzer ausgesetzt sind, selbst wenn die allgemeine Themenabdeckung ähnlich erscheint. Dies hat Auswirkungen auf Transparenz, Vertrauen und die Möglichkeit der Nutzer:innen, Informationen zu überprüfen.
Eine KI-Suchmaschine zu verwenden, ist mit zunehmender Verbreitung von KI-Chatbots wie ChatGPT auf der einen und der Integration von KI-Funktionen in traditionellen Suchmaschinen wie Google durch die AI Overviews oder den AI Mode keine aktive Entscheidung für Nutzer:innen mehr.
Gleichzeitig zeigen Studien, dass fundamentale Herausforderungen für Sprachmodelle durch Halluzinationen nach wie vor bestehen bleiben. In diesem wechselhaften Umfeld versuchen Unternehmen zudem, durch optimierte SEO-Strategien ihre Sichtbarkeit in KI-Suchen zu erhöhen.