Inhalt
summary Zusammenfassung

Eine neue Studie zeigt, dass große Sprachmodelle wie GPT-4 bei kontrafaktischen Aufgabenvarianten deutlich schlechter abschneiden als bei Standardaufgaben. Das deutet darauf hin, dass die Modelle oft eher auswendig gelernte Lösungen abrufen, als tatsächlich zu schlussfolgern.

Anzeige

Forscher des Massachusetts Institute of Technology (MIT) und der Universität Boston haben in einer umfangreichen Studie die Reasoning-Fähigkeiten führender Sprachmodelle wie GPT-4, GPT-3.5, Claude und PaLM-2 untersucht.

Die Forscher entwickelten eine Reihe von elf kontrafaktischen Varianten dieser Aufgaben, bei denen die grundlegenden Regeln oder Bedingungen im Vergleich zu den Standardaufgaben leicht verändert wurden.

Beispielsweise mussten die Modelle Additionen in anderen Zahlensystemen als dem üblichen Dezimalsystem durchführen, Schachzüge bei leicht veränderten Startpositionen der Figuren beurteilen oder ein Erfrischungsgetränk auf den Kopf stellen.

Anzeige
Anzeige

Bei der Standardaddition im Dezimalsystem erreichte GPT-4 beispielsweise eine nahezu perfekte Genauigkeit von mehr als 95 Prozent. Im Zahlensystem zur Basis 9 fiel die Leistung jedoch auf unter 20 Prozent. Ähnliche Muster zeigten sich bei anderen Aufgaben wie Programmierung, räumlichem Denken und logischem Schließen.

Die Leistung von GPT-4 bei der Standardversion verschiedener Aufgaben (blau) und den kontrafaktischen Pendants (orange). Das Modell schneidet bei den bekannten Aufgaben deutlich besser ab, ist aber auch bei den kontrafaktischen Aufgaben häufig besser als der Zufall. | Bild: Wu et al.

Die Forscher betonen jedoch, dass die Muster der kontrafaktischen Aufgaben in der Regel über dem Zufallsniveau lagen, was auf eine gewisse Verallgemeinerungsfähigkeit hindeutet. Sie lernen also wahrscheinlich nicht nur auswendig. Die Forscher können jedoch nicht ausschließen, dass ihre kontrafaktischen Bedingungen im Trainingsdatensatz der KI enthalten waren.

Der deutliche Leistungsabfall im Vergleich zu Standardaufgaben zeige in jedem Fall, dass die Modelle häufig auf nicht übertragbare, für Standardbedingungen spezifische Verhaltensweisen zurückgreifen, anstatt abstraktes, verallgemeinerbares logisches Denken einzusetzen.

A clean, sleek editorial illustration of an upside-down lemonade glass. The glass is transparent with lemon slices inside. A few droplets of lemonade are shown falling from the rim. The background is minimalist with light, airy colors, and the surface reflects the glass and droplets subtly. The design is modern and elegant, suitable for a widescreen layout.
GPT-4o und DALL-E 3 können ein Limonadenglas auch nach wiederholter Aufforderung nicht umdrehen, da sie im Training wahrscheinlich nur Limonadenglasbilder mit der Öffnung nach oben gesehen haben. | Bild: DALL-E 3 / ChatGPT prompted by THE DECODER

Die Studie ergab auch, dass die Leistung der Modelle bei kontrafaktischen Aufgaben mit der Häufigkeit der jeweiligen Bedingungen korrelierte. So zeigte GPT-4 bei der Gitarrenakkordaufgabe die beste kontrafaktische Leistung für die relativ häufige alternative Drop-D-Stimmung. Dies deute auf einen Gedächtniseffekt hin, bei dem die Modelle unter häufigeren Bedingungen besser abschneiden.

Die Forscher untersuchten auch den Einfluss von Chain-of-Thought-Prompting (ohne Beispiele), einer Technik, bei der das Modell aufgefordert wird, schrittweise zu denken. Diese Methode verbesserte die Leistung in den meisten Fällen, konnte aber die Lücke zwischen den Standard- und den kontrafaktischen Aufgaben nicht vollständig schließen.

Empfehlung
DALL-E 3 dreht das Glas nach einer CoT-Aufforderung immerhin ein wenig zur Seite. Auf den Kopf stellen will das KI-Modell das Glas aber nicht. | Bild: DALL-E 3 / ChatGPT prompted by THE DECODER

Die Forscher argumentieren, dass der Erfolg bestehender Sprachmodelle bei Standardaufgaben nicht als ausreichender Beweis für ihre generelle Fähigkeit, die Zielaufgabe zu lösen, angesehen werden sollte. Sie betonen, dass zwischen dem Abruf auswendig gelernter Lösungen und echtem logischen Denken unterschieden werden muss.

Weitere Experimente und Studien haben zuletzt die begrenzten logischen Fähigkeiten großer Sprachmodelle aufgezeigt. Ein möglicher Durchbruch wird daher in der Entwicklung einer Kombination aus Reasoning-Fähigkeiten für KI-Modelle und generativer KI gesehen, sodass GenAI-Systeme das aus Trainingsbeispielen gelernte Wissen auf neue Beispiele übertragen können.

Unter anderem zeigte eine Studie zur Qualität der ChatGPT-Codegenerierung, dass GPT-3.5 Codeaufgaben von der LeetCode-Trainingswebsite, die vor dem Ende des Trainings im Jahr 2021 veröffentlicht wurden, zuverlässig lösen konnte. Die Leistung bei Aufgaben, die nach dem Ende des Trainings veröffentlicht wurden, nahm stark ab.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie des Massachusetts Institute of Technology (MIT) und der Universität Boston zeigt, dass große Sprachmodelle wie GPT-4 bei kontrafaktischen Aufgabenvarianten deutlich schlechter abschneiden als bei Standardaufgaben. Das deutet darauf hin, dass die Modelle oft eher auswendig gelernte Lösungen abrufen, als tatsächlich zu schlussfolgern.
  • Die Forscher entwickelten elf "kontrafaktische" Aufgaben, bei denen die Regeln oder Bedingungen gegenüber den Standardaufgaben leicht verändert waren. GPT-4 erzielte bei den Standardaufgaben eine hohe Genauigkeit, schnitt aber bei den kontrafaktischen Aufgaben deutlich schlechter ab - allerdings oft noch über dem Zufallsniveau.
  • Die Studie ergab auch, dass die Leistung der Modelle bei kontrafaktischen Aufgaben mit der Häufigkeit der jeweiligen Bedingungen korrelierte. Das deutet auf einen Gedächtniseffekt hin, bei dem die Modelle unter häufigeren Bedingungen besser abschneiden.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!