GPT-4 besteht Turing-Test und Menschen halten andere Menschen erstaunlich oft für KI

In einer neuen Studie konnten menschliche Teilnehmer in Chats nicht zuverlässig unterscheiden, ob sie mit einem Menschen oder mit dem KI-Modell GPT-4 interagierten. Die Studienergebnisse werfen neue Fragen zum klassischen Turing-Test und seinen Implikationen auf.

74 Jahre nachdem Alan Turing sein berühmtes Gedankenexperiment zum Vergleich von Mensch und Maschine vorschlug, haben Forscher nun eine randomisierte, kontrollierte Zwei-Spieler-Variante des Turing-Tests mit dem KI-Sprachmodell GPT-4 durchgeführt. Das Ergebnis: Menschliche Teilnehmer konnten in Chats nicht zuverlässig erkennen, ob sie mit einem Menschen oder mit der KI kommunizierten.

Die Sprachmodelle wurden vor dem Test mit einem detaillierten Prompt auf das Spiel eingestellt, der die Antworten so beeinflusst, dass typische Verhaltensweisen eingeschränkt werden und die Sprachmodelle z.B. auch immer wieder Rechtschreibfehler machen.

Eine Auswahl von Interviews zwischen menschlichen Interviewern (grün) und Zeugen (grau). Eines der vier Gespräche wurde mit einem menschlichen Zeugen geführt, der Rest mit einer KI. Die Auflösung befindet sich am Ende des Textes. | Bild: Jones, Bergen et al.

GPT-4 erreichte eine "Trefferquote" von 54 Prozent - die Hälfte der Teilnehmer hielt das Modell nach einer fünfminutigen Unterhaltung also für einen Menschen. Damit schnitt GPT-4 besser ab als das ältere Modell GPT-3.5 (50 Prozent) und das einfache, regelbasierte Referenzsystem ELIZA aus den 1960er Jahren (22 Prozent). Nur menschliche Teilnehmer erreichten mit 67 Prozent eine höhere Erfolgsquote - die Teilnehmer schätzten sie also in knapp einem Drittel der Fälle als KI ein. Moderne KI-Systeme sind also in der Lage, Menschen glaubwürdig zu täuschen. Und: wenn Menschen wissen, dass KI sich menschenähnlich verhalten kann, werden sie ihre "menschliche" Messlatte so hoch legen, dass sie immer wieder echte Menschen ausschließen.

Intelligenz hin oder her - Sprachmodelle können täuschen

Die Forscher definierten eine Trefferquote von 50 Prozent als Erfolg im Turing-Test, da die Teilnehmer dann nicht besser als der Zufall zwischen Mensch und Maschine unterscheiden konnten. Nach dieser Definition hat GPT-4 den Test bestanden. Die Teilnehmer rieten nicht einfach: Wenn sie GPT-4 für einen Menschen hielten, taten sie dies mit einer durchschnittlichen Sicherheit von 73 Prozent.

Ursprünglich sah Turing in dem Test einen Maßstab für maschinelle Intelligenz. Daran gab es viel Kritik: Der Test sei zu leicht oder zu schwer, er messe nicht wirklich Intelligenz. Die Ergebnisse der Studie liefern nun empirische Hinweise darauf, was der Turing-Test tatsächlich misst: Die Strategien und Begründungen der Teilnehmenden konzentrierten sich eher auf den Sprachstil und sozial-emotionale Faktoren als auf Wissen und Logik.

Teilnehmer, die jedoch nach Logik, aktuellen Ereignissen oder menschlichen Emotionen und Erfahrungen fragten, lagen im Schnitt häufiger richtig.

"Die hier erzielten Ergebnisse stellen wahrscheinlich eine untere Grenze für das Täuschungspotenzial in natürlicheren Kontexten dar, in denen sich Menschen im Gegensatz zur experimentellen Umgebung möglicherweise nicht der Möglichkeit einer Täuschung bewusst sind oder sich nicht ausschließlich darauf konzentrieren, diese zu erkennen", heißt es im Paper. Systeme, die zuverlässig Menschen nachahmen können, könnten weitreichende wirtschaftliche und soziale Auswirkungen haben, indem sie beispielsweise Kundenkontakte übernehmen, die bisher menschlichen Mitarbeitern vorbehalten waren.

Sie könnten aber auch die Öffentlichkeit oder ihre eigenen menschlichen Bediener in die Irre führen und das soziale Vertrauen in authentische menschliche Interaktionen untergraben, so die Wissenschaftler.

Empfehlung

KI in der Praxis

Update

OpenAI stellt neues KI-Modell 'o1' vor, das für bessere Antworten länger nachdenkt

Die Lösung für oben: A) ist GPT-4, B) ist Mensch, C) ist GPT-3.5, D) ist ELIZA.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

GPT-4 besteht Turing-Test und Menschen halten andere Menschen erstaunlich oft für KI

Intelligenz hin oder her - Sprachmodelle können täuschen

OpenAI stellt neues KI-Modell 'o1' vor, das für bessere Antworten länger nachdenkt

PokéLLMon: Künstliche Intelligenz schlägt Menschen im Pokémon-Kampf

Prompt Engineering: Längere "Chain of Thoughts" verbessern die Leistung von Sprachmodellen

Task Contamination: Sprachmodelle wie GPT-4 werden möglicherweise überschätzt

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

GPT-4 besteht Turing-Test und Menschen halten andere Menschen erstaunlich oft für KI

Intelligenz hin oder her - Sprachmodelle können täuschen

Artikel teilen

Bankverbindung