Inhalt
summary Zusammenfassung

Forschende haben die Rationalität von sieben großen KI-Sprachmodellen mit kognitiven Tests aus der Psychologie untersucht.

Können KI-Sprachmodelle rational denken? Eine Studie von Forschenden der University College London hat dies anhand von kognitiven Tests aus der Psychologie untersucht. Getestet wurden sieben große Sprachmodelle, darunter GPT-3.5 und GPT-4 von OpenAI, LaMDA von Google, Claude 2 von Anthropic und drei Versionen von Meta's Llama 2.

Die verwendeten Tests wurden ursprünglich entwickelt, um kognitive Verzerrungen und Heuristiken im menschlichen Denken aufzuzeigen. Menschen beantworten die Aufgaben oft falsch, weil sie mentale Abkürzungen nehmen, anstatt streng logisch zu denken.

Die Forscher wollten wissen: Zeigen die KI-Modelle ähnlich irrationales Denken wie Menschen? Oder denken sie auf eine eigene Art unlogisch?

Anzeige
Anzeige

"Die Fähigkeiten dieser Modelle sind äußerst überraschend, besonders für Menschen, die seit Jahrzehnten mit Computern arbeiten," so Professor Mirco Musolesi, Autor der Studie. "Das Interessante ist, dass wir das emergente Verhalten von Large Language Models und warum und wie sie Antworten richtig oder falsch bekommen, nicht wirklich verstehen."

GPT-4 liegt häufiger richtig und macht menschenähnlichere Fehler

Die Antworten der Sprachmodelle wurden in zwei Dimensionen bewertet: richtig oder falsch und menschenähnlich oder nicht menschenähnlich. Eine menschenähnlich falsche Antwort ist eine Antwort, die den gleichen kognitiven Fehler macht wie Menschen. Eine nicht-menschlich falsche Antwort ist auf eine andere Weise unlogisch.

Das Ergebnis: KI-Modelle "denken" oft irrational - aber anders als Menschen. Die meisten falschen Antworten waren nicht menschenähnlich, sondern auf ihre Weise unlogisch. Manchmal war die Erklärung richtig, aber die Schlussfolgerung falsch. Oft gab es mathematische Rechenfehler oder Verstöße gegen Logik und Wahrscheinlichkeitsregeln. Außerdem war ihre Leistung inkonsistent: Dasselbe Modell gab oft völlig unterschiedliche Antworten auf dieselbe Aufgabe. Mal richtig, mal falsch, mal logisch, mal unlogisch.

Bild: Macmillan-Scott, Musolesi

Insgesamt schnitt GPT-4 von OpenAI am besten ab. Es gab in 69,2% der Fälle richtige Antworten mit richtigen Erklärungen. Gefolgt von Claude 2 mit 55%. Am schlechtesten schnitt Llama 2 von Meta mit 7 Milliarden Parametern ab - es lag in 77,5 % der Fälle falsch.

Laut der Studie war das Modell GPT-4 von OpenAI am menschenähnlichsten in seinen Antworten auf die kognitiven Aufgaben. GPT-4 gab in 73,3% der Fälle menschenähnliche Antworten (sowohl richtige als auch falsche).

Empfehlung

Autoren rufen zu Vorsicht im Einsatz von Sprachmodellen in kritischen Bereichen auf

Die Autoren betonen, dass die meisten falschen Antworten der Sprachmodelle nicht auf menschenähnliche kognitive Verzerrungen zurückzuführen sind, sondern auf andere Fehler wie inkonsistente Logik oder falsche Berechnungen. Sie vermuten, dass die menschenähnlichen Verzerrungen in großen Sprachmodellen wie GPT-4 eher auf die Trainingsdaten als auf eine menschenähnliche Denkfähigkeit zurückzuführen sind.

Die inkonsistenten und teilweise irrationalen Ergebnisse werfen Fragen auf, wenn solche Systeme in kritischen Bereichen wie der Medizin eingesetzt werden sollen. Die Studie liefert eine Methodik, um die Rationalität von KI-Sprachmodellen zu bewerten und zu vergleichen. Dies könnte ein Ansatzpunkt sein, um die Sicherheit dieser Systeme in Bezug auf logisches Denken zu verbessern.

"Wir haben jetzt Methoden, um diese Modelle zu verfeinern, aber dann stellt sich eine Frage: Wenn wir versuchen, diese Probleme zu lösen, indem wir die Modelle trainieren, übertragen wir dann unsere eigenen Fehler? Das Faszinierende ist, dass diese LLMs uns dazu bringen, darüber nachzudenken, wie wir denken, was unsere eigenen Vorurteile sind und ob wir völlig rationale Maschinen wollen", sagt Musolesi. "Wollen wir etwas, das Fehler macht wie wir, oder wollen wir, dass sie perfekt sind?"

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von Forschern der Universität Bologna hat die Rationalität von sieben großen KI-Sprachmodellen, darunter GPT-3.5, GPT-4, LaMDA und Claude 2, anhand von kognitiven Tests aus der Psychologie untersucht, die ursprünglich entwickelt wurden, um irrationales Denken bei Menschen aufzuzeigen.
  • Die Ergebnisse zeigen, dass die KI-Modelle zwar oft irrationale Ausgaben liefern, aber auf eine andere Art und Weise als Menschen: Die meisten falschen Antworten waren nicht menschenähnlich, sondern enthielten Fehler in mathematischen Berechnungen oder Verstöße gegen Logik und Wahrscheinlichkeitsregeln. Zudem zeigte sich eine Inkonsistenz, bei der das gleiche Modell auf die gleiche Aufgabe oft völlig unterschiedliche Antworten gab.
  • GPT-4 von OpenAI schnitt mit 69,2 % korrekten Antworten am besten ab, während Llama 2 von Meta mit nur 7 Milliarden Parametern in 77,5 % der Fälle falsch lag. Die Studie liefert eine Methodik zur Bewertung der Rationalität von KI-Sprachmodellen und wirft Fragen zu deren Einsatz in kritischen Bereichen auf, bietet aber auch Ansatzpunkte zur Verbesserung der Sicherheit dieser Systeme in Bezug auf logisches Denken.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!