Eine kürzlich veröffentlichte Studie zeigt, dass Ratschläge von ChatGPT als ausgewogener, umfassender, einfühlsamer und hilfreicher wahrgenommen werden als Ratschläge in Ratgeberkolumnen.
Die Studie, die von Forschern der University of Melbourne und der University of Western Australia durchgeführt und in Frontiers of Psychology publiziert wurde, verglich die Antworten von ChatGPT und Menschen auf 50 Fragen zu sozialen Dilemmas, die zufällig aus zehn bekannten Ratgeberkolumnen ausgewählt worden waren.
KI vs. Mensch: Die Studie
Für die Studie verwendeten die Forscher die kostenpflichtige Version von ChatGPT mit GPT-4, dem derzeit leistungsstärksten LLM auf dem Markt.
Sie zeigten 404 Testpersonen eine Frage zusammen mit der entsprechenden Antwort eines Kolumnisten und von ChatGPT. Die Teilnehmer sollten bewerten, welche Antwort ausgewogener, umfassender, einfühlsamer, hilfreicher und insgesamt besser war.
Die Forschenden stellten fest, dass ChatGPT die menschlichen Berater bei jeder der fünf zufällig gestellten Fragen und in allen abgefragten Kategorien "deutlich übertraf", mit Präferenzraten zwischen etwa 70 und 85 Prozent zugunsten der KI.
Die Studie zeigte auch, dass die Antworten der ChatGPT-Teilnehmer länger waren als die der Ratgeber-Kolumnisten. In einer zweiten Studie kürzten die Forschenden daher die Antworten der ChatGPT-Teilnehmer auf etwa die gleiche Länge wie die der Ratgeber-Kolumnisten. Diese zweite Studie bestätigte die ersten Ergebnisse, wenn auch auf etwas niedrigerem Niveau, und zeigte, dass der Vorteil von ChatGPT nicht allein auf ausführlichere Antworten zurückzuführen ist.
Menschen bevorzugen Menschen
Trotz der wahrgenommenen Qualität der ChatGPT-Beratung bevorzugte die Mehrheit (77 %) der Studienteilnehmer weiterhin eine menschliche Antwort auf ihre Fragen zu sozialen Konflikten. Diese Präferenz für menschliche Antworten stimme mit früheren Studien überein.
Allerdings konnten die Teilnehmenden nicht zuverlässig unterscheiden, welche Antworten von ChatGPT und welche von Menschen geschrieben wurden. Die Präferenz für menschliche Antworten hängt also nicht direkt mit der Qualität der Antworten zusammen. Sie scheint eher ein soziales oder kulturelles Phänomen zu sein.
Die Forschenden schlagen vor, dass zukünftige Forschung dieses Phänomen genauer untersuchen sollte, zum Beispiel, indem die Teilnehmenden im Voraus darüber informiert werden, welche Antworten von der KI und welche von Menschen verfasst wurden. Dies könnte die Bereitschaft erhöhen, sich von der KI beraten zu lassen.
Zuvor hatte bereits eine Studie von Psychologen gezeigt, dass ChatGPT die möglichen Gefühlszustände von Menschen in Szenarien auf der Skala "Levels of Emotional Awareness" (LEAS) wesentlich detaillierter beschreiben kann als Menschen.
Eine weitere Studie zum Einfühlungsvermögen von KI vom April 2023 ergab, dass Menschen KI-Antworten auf medizinische Diagnosen als einfühlsamer und von besserer Qualität als die von Ärztinnen und Ärzten empfinden können. Die Studie untersuchte jedoch nicht die Korrektheit der Antworten.