Chatbots wie ChatGPT ergänzen und ersetzen schon jetzt die Aufgaben klassischer Suchmaschinen. Doch wie schlagen sie sich in einem Vergleich bezüglich Effizienz und Qualität der Ergebnisse?
Eine aktuelle Studie vergleicht die Suchleistung und das Nutzererlebnis von ChatGPT und der Google-Suche. Die Studie von Forschenden aus den USA und Hongkong zeigt, dass Nutzer:innen von ChatGPT weniger Zeit für Aufgaben aufwenden und die Qualität der erhaltenen Informationen höher einschätzen. Allerdings weist die Studie auch auf Schwächen von ChatGPT bei Aufgaben zur Faktenüberprüfung hin.
Obwohl die Studie wissenschaftlichen Standards entspricht, ist ihre Aussagekraft aufgrund der vergleichsweise geringen Teilnehmerzahl von 95 Personen eingeschränkt. Die Teilnehmenden wurden zufällig einer der beiden Gruppen ChatGPT oder Google zugeordnet und füllten anschließend einen Fragebogen zur Benutzerfreundlichkeit, Nützlichkeit, Spaß und Zufriedenheit mit dem Tool aus. Die Umfrage wurde vollständig online durchgeführt.
- Bei Aufgabe 1 sollten die Teilnehmenden den Namen sowie das damalige Alter der ersten Frau im Weltall herausfinden.
- Bei Aufgabe 2 sollten die Teilnehmenden fünf URLs auflisten, die für die Buchung eines Fluges zwischen Phoenix und Cincinnati in den USA genutzt werden könnten.
- Bei Aufgabe 3 sollten die Teilnehmenden einen Auszug aus einem Nachrichtenartikel lesen und drei markierte Aussagen überprüfen.
Die Gruppe bestehend aus den Nutzer:innen von ChatGPT benötigte durchschnittlich 11:21 Minuten für die drei Aufgaben, während die Gruppe der Google-Suchenden mit 18:45 Minuten deutlich mehr Zeit in Anspruch nahm. Die Teilnehmenden stoppten die pro Aufgabe benötigte Zeit eigenständig.
Die Forschenden führen diesen Unterschied darauf zurück, dass die Nutzer*innen bei der Google-Suche ihre Suchanfragen mehrmals selbst formulieren müssten und es ein "Trial-and-Error"-Prozess sei, an die Ergebnisse zu gelangen. ChatGPT hingegen erlaube es, eine Frage in natürlicher Sprache zu stellen. Die zusammenfassende Antwort erspare weiteres Lesen.
Im Kontrast dazu steht jedoch das weitere Ergebnis, dass die Teilnehmenden beider Gruppen für die drei Aufgaben ähnlich viele Eingaben benötigten, diese aber bei ChatGPT länger waren. Den größten Zeitvorsprung hatte ChatGPT bei der ersten Aufgabe (Name und Alter der ersten Frau im Weltall), bei der es darum ging, eine konkrete Information zu finden.
Suchperformance im Schnitt ähnlich, aber es kommt auf die Aufgabe an
Bei der Bewertung der Suchleistung, also der Korrektheit der Antworten, vergaben die Forschenden bis zu zehn Punkte pro Aufgabe. Hier liegen ChatGPT mit 8,55 und Google mit 8,77 nicht weit auseinander, weshalb der Unterschied statistisch vernachlässigbar ist. Dies bedeute aber auch, dass Google-Nutzer:innen deutlich länger für eine ähnliche Suchleistung benötigen.
Allerdings gebe es von Aufgabe zu Aufgabe zum Teil gravierende Unterschiede: "Bemerkenswert ist, dass bei Aufgabe 1 alle Teilnehmenden mit ChatGPT die volle Punktzahl erreichten, was eine herausragende Leistung darstellt und darauf hindeutet, dass ChatGPT sehr effektiv beim Auffinden von Fakten ist." Die Google-Nutzer*innen hingegen machten mehrere Fehler mit einer durchschnittlichen Bewertung von nur 8,19.
Bei der zweiten Aufgabe (Buchungsseiten für Flüge) erreichten beide Gruppen fast die maximale Punktzahl. Google schien etwas hilfreicher zu sein, da es direkt auf Seiten für Flüge zwischen Cincinnati und Phoenix führte, während ChatGPT die Gruppe nur auf allgemeine Buchungsseiten verwies.
Dagegen war die Leistung der Testpersonen bei Aufgabe 3 (Überprüfung einer Nachricht) in der ChatGPT-Gruppe (5,83) signifikant schlechter als in der Google-Suchgruppe (8,37). Einen Unterschied machte die Formulierung des ChatGPT-Prompts: Wurde nach der Einschätzung des Wahrheitsgehalts einer Aussage gefragt, lag ChatGPT daneben. Wurde jedoch konkret nach dem Informationsgehalt gefragt, war die Antwort richtig.
ChatGPT-Informationen haben einen Qualitätsvorsprung, aber das Vertrauen in beide Tools ist gleich hoch
Die ChatGPT-Gruppe bewertete die Qualität der Antworten höher als die Google-Suchgruppe (5,90 vs. 4,62). Dies ist wahrscheinlich darauf zurückzuführen, dass die Informationen, die ChatGPT in ganzen Sätzen liefert, leichter zugänglich sind. Das Vertrauen in beide Technologien ist jedoch grundsätzlich gleich hoch.
In Bezug auf den Bildungshintergrund stellten die Forschenden keine Unterschiede bei den ChatGPT-Teilnehmenden fest, jedoch zeigten Nutzer*innen mit höherer Bildung mehr Kompetenz im Umgang mit Google.
Die Teilnehmenden neigen dazu, die Antworten so zu akzeptieren, wie sie gegeben werden, und zeigen wenig Neigung, die Informationsquellen beider Tools in Frage zu stellen. Während die Teilnehmer bei der Nutzung beider Instrumente ein ähnliches Maß an Vertrauen zeigen, müssen die Nutzer der Google-Suche möglicherweise mehr Aufwand betreiben und mehr Zeit mit dem Durchsuchen von Webseiten verbringen, um relevante Informationen zu finden. Die wahrgenommene Informationsqualität ist daher geringer.
Im Gegensatz dazu kann die Bequemlichkeit von ChatGPT die Teilnehmer davon abhalten, die Informationen in den Antworten weiter zu erforschen und die Informationen in den Antworten zu überprüfen, was zu einer unterdurchschnittlichen Leistung bei der Überprüfung von Fakten führt. Darüber hinaus empfanden die Teilnehmer der ChatGPT-Gruppe das Tool als nützlicher und angenehmer und äußerten eine höhere Zufriedenheit mit dem Tool als die Teilnehmer der Google-Suchgruppe.
Aus dem Paper
Suchmaschine trifft Chatbot: Die optimale Mischung?
Insgesamt sind die Ergebnisse der Studie nicht überraschend. Wenn es um konkrete Informationen geht (Aufgabe 1), fasst ChatGPT diese kompakter zusammen. Das ist schneller als einzelne Seiten aufzurufen.
Geht es hingegen um aktuelle Serviceangebote wie die Buchung eines Fluges (Aufgabe 2), liefert Google über weiterführende Links genauere Ergebnisse.
OpenAI betont immer wieder, dass Benutzer sich nicht auf die Faktenüberprüfung durch ChatGPT verlassen sollten, und die Ergebnisse von Aufgabe 3 scheinen diese These zu unterstützen. Allerdings wurde nur ein Fall untersucht, sodass das Ergebnis bei Weitem nicht repräsentativ ist.
Große Sprachmodelle werden als mögliche Alternative zur klassischen Suchmaschine gehandelt. Dass generative KI Suchaufgaben einfacher als durch Verlinkung auf weiterführende Webseiten lösen kann, zeigt Google derzeit mit dem KI-Suchprototyp "Search Generative Experience".
Hier verbindet Google bereits die Vorteile einer Chat-Suche (direkte, individuelle Antworten auf Fragen, Rückfragen) und einer klassischen Suche (Echtzeitintegration von Diensten in die KI-Antworten, aktuelle Informationen). OpenAI versucht sich mit ChatGPT-Plugins an einem ähnlichen Angebot, hinkt aber in der technischen Umsetzung und Benutzerführung noch hinterher.