Googles KI-Suche liegt laut Analyse in neun von zehn Fällen richtig

7. April 2026

Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

Das KI-Start-up Oumi hat im Auftrag der New York Times 4.326 Google-Suchen untersucht und festgestellt, dass Googles AI Overviews mit Gemini 2 in 85 Prozent der Fälle korrekt antworteten, mit Gemini 3 in 91 Prozent.
Bei Googles Skalierung bedeuten selbst neun Prozent Fehlerquote jedoch Millionen falscher Antworten pro Stunde.
Trotz gestiegener Genauigkeit hat sich die Nachprüfbarkeit verschlechtert: Bei Gemini 3 waren 56 Prozent der korrekten Antworten nicht durch die verlinkten Quellen belegbar, bei Gemini 2 lag dieser Wert noch bei 37 Prozent.

"KI kann Fehler machen, bitte Antworten überprüfen" steht unter jeder KI-generierten Suchantwort von Google. Doch wie häufig diese Fehler tatsächlich auftreten, wurde bisher kaum systematisch untersucht.

Das KI-Start-up Oumi hat im Auftrag der New York Times insgesamt 4326 Google-Suchen mit dem branchenweit genutzten SimpleQA-Benchmark untersucht. Getestet wurde in zwei Durchgängen: einmal im Oktober mit Gemini 2 als zugrunde liegender KI-Technologie, einmal im Februar nach dem Upgrade auf Gemini 3.

Das Ergebnis: Mit Gemini 2 waren die AI-Overviews in 85 Prozent der Fälle korrekt, mit Gemini 3 stieg die Quote auf 91 Prozent. Das klingt nach einer hohen Erfolgsrate, allerdings bedeutet das bei Googles Skalierung auch viele Millionen Falschinformationen pro Stunde.

Was die Studie allerdings nicht beantwortet: Wären über herkömmliche Suchergebnisse oder andere Informationswege bessere Antworten bei den Nutzern angekommen? Nicht alles, was auf Webseiten steht, ist automatisch richtig. Die entscheidende Metrik ist weniger die absolute Korrektheit der KI-Antworten, sondern ob insgesamt mehr richtige Informationen bei Nutzern landen als ohne sie.

Bessere Antworten, schlechtere Nachprüfbarkeit

Ein weiteres Ergebnis der Analyse: Obwohl die Genauigkeit mit Gemini 3 gestiegen ist, hat sich die Nachprüfbarkeit der Antworten verschlechtert. Oumi untersuchte, ob die von Google verlinkten Quellen die gegebene Antwort tatsächlich stützen.

Bei Gemini 2 waren 37 Prozent der korrekten Antworten "ungrounded", die verlinkten Websites unterstützten die Information also nicht vollständig. Mit Gemini 3 stieg dieser Wert auf 56 Prozent. In vielen Fällen lässt sich die Richtigkeit einer Antwort also nicht anhand der angegebenen Quelle überprüfen.

Die Quellenqualität ist diskussionswürdig. Unter den 5.380 von Google zitierten Quellen waren Facebook und Reddit die zweit- und vierthäufigsten. Bei korrekten Antworten wurde Facebook in fünf Prozent der Fälle als Quelle angegeben, bei inkorrekten Antworten in sieben Prozent. Google verfolgt hier möglicherweise das Interesse, bevorzugt Quellen zu zitieren, die weniger wahrscheinlich wegen der Verwertung ihrer Inhalte klagen.

Fehler können auch dann auftreten, wenn das System eigentlich eine korrekte Quelle findet: Bei einer Frage zur Classical Music Hall of Fame identifizierte Google die korrekte Website, auf der Yo-Yo Ma als Mitglied aufgeführt ist, behauptete aber dennoch, es gebe keinen Eintrag über seine Aufnahme.

Bei einer Frage zum Fluss westlich von Goldsboro, North Carolina, wurde eine Tourismus-Website korrekt gefunden, die enthaltene Information aber falsch interpretiert: Google nannte den Neuse River statt des tatsächlich westlich gelegenen Little River.

Und bei einer Frage zum Bob-Marley-Museum nannte Googles AI Overview das falsche Eröffnungsjahr 1987 statt 1986, gestützt auf einen Facebook-Post, einen Reiseblog und eine Wikipedia-Seite mit widersprüchlichen Angaben.

Google kritisiert die Studie

Zur Verifizierung der Antworten setzte Oumi sein eigenes KI-Verifizierungsmodell HallOumi ein, da nur so eine effiziente Überprüfung großer Antwortmengen möglich ist. Diese Methode birgt allerdings eine inhärente Schwäche: Das prüfende KI-System kann selbst Fehler machen. Hinzu kommt, dass AI Overviews bei identischen Suchanfragen unterschiedliche Antworten generieren können, selbst wenn nur Sekunden zwischen den Anfragen liegen.

Google kritisierte die Studie denn auch als fehlerhaft: Sprecher Ned Adriance erklärte, der SimpleQA-Benchmark enthalte selbst fehlerhafte Informationen und bilde nicht ab, wonach Menschen tatsächlich bei Google suchen.

Der SimpleQA-Benchmark enthält trotz seines Namens besonders anspruchsvolle Fragen, bei denen bei einer Vorauswahl mindestens ein KI-Modell gescheitert ist. Der Test ist zudem auf ein Antwortszenario ohne Internetzugang konzipiert.

Googles neuestes KI-Modell Gemini 3.1 Pro weist im Artificial Analysis Intelligence Index eine um 38 Prozentpunkte gesunkene Halluzinationsrate im Vergleich zum anfälligen Gemini 3 auf, das wahrscheinlich in einer Flash-Variante zum Testzeitpunkt in Googles Suche lief. Laut Google fallen die Ergebnisse mit Websuche genauer aus als solche, die rein auf dem Modellwissen basieren.

Die Wirkung von KI-Antworten aufs Web

Die größere Kontroverse um Googles AI-Overviews betrifft die strukturellen Auswirkungen auf das Internet. Indem Google direkte Antworten liefert, statt Nutzer auf externe Websites weiterzuleiten, entzieht es Publishern Traffic und damit die wirtschaftliche Grundlage.

Das offene Web verliert seine Funktion als frei verlinktes Informationsnetzwerk und wird zunehmend durch ein zentralisiertes KI-Interface unter Kontrolle von Google ersetzt. Eine 90-Prozent-Korrektheitsquote bei KI-Antworten dürfte für die meisten Nutzer und Nutzungsszenarien vollkommen ausreichend sein, um eben nicht die dahinterliegende Webseite zu prüfen.

Studien, die zeigen, dass AI-Overviews dem Web-Traffic schaden, hat Google bislang stets bestritten, ohne selbst Zahlen vorzulegen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: The New York Times