Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

Eine neue Studie zeigt, dass große Sprachmodelle wie GPT-4 bei kontrafaktischen Aufgabenvarianten deutlich schlechter abschneiden als bei Standardaufgaben. Das deutet darauf hin, dass die Modelle oft eher auswendig gelernte Lösungen abrufen, als tatsächlich zu schlussfolgern.

Forscher des Massachusetts Institute of Technology (MIT) und der Universität Boston haben in einer umfangreichen Studie die Reasoning-Fähigkeiten führender Sprachmodelle wie GPT-4, GPT-3.5, Claude und PaLM-2 untersucht.

Die Forscher entwickelten eine Reihe von elf kontrafaktischen Varianten dieser Aufgaben, bei denen die grundlegenden Regeln oder Bedingungen im Vergleich zu den Standardaufgaben leicht verändert wurden.

Beispielsweise mussten die Modelle Additionen in anderen Zahlensystemen als dem üblichen Dezimalsystem durchführen, Schachzüge bei leicht veränderten Startpositionen der Figuren beurteilen oder ein Erfrischungsgetränk auf den Kopf stellen.

Bei der Standardaddition im Dezimalsystem erreichte GPT-4 beispielsweise eine nahezu perfekte Genauigkeit von mehr als 95 Prozent. Im Zahlensystem zur Basis 9 fiel die Leistung jedoch auf unter 20 Prozent. Ähnliche Muster zeigten sich bei anderen Aufgaben wie Programmierung, räumlichem Denken und logischem Schließen.

Die Leistung von GPT-4 bei der Standardversion verschiedener Aufgaben (blau) und den kontrafaktischen Pendants (orange). Das Modell schneidet bei den bekannten Aufgaben deutlich besser ab, ist aber auch bei den kontrafaktischen Aufgaben häufig besser als der Zufall. | Bild: Wu et al.

Die Forscher betonen jedoch, dass die Muster der kontrafaktischen Aufgaben in der Regel über dem Zufallsniveau lagen, was auf eine gewisse Verallgemeinerungsfähigkeit hindeutet. Sie lernen also wahrscheinlich nicht nur auswendig. Die Forscher können jedoch nicht ausschließen, dass ihre kontrafaktischen Bedingungen im Trainingsdatensatz der KI enthalten waren.

Der deutliche Leistungsabfall im Vergleich zu Standardaufgaben zeige in jedem Fall, dass die Modelle häufig auf nicht übertragbare, für Standardbedingungen spezifische Verhaltensweisen zurückgreifen, anstatt abstraktes, verallgemeinerbares logisches Denken einzusetzen.

A clean, sleek editorial illustration of an upside-down lemonade glass. The glass is transparent with lemon slices inside. A few droplets of lemonade are shown falling from the rim. The background is minimalist with light, airy colors, and the surface reflects the glass and droplets subtly. The design is modern and elegant, suitable for a widescreen layout. — GPT-4o und DALL-E 3 können ein Limonadenglas auch nach wiederholter Aufforderung nicht umdrehen, da sie im Training wahrscheinlich nur Limonadenglasbilder mit der Öffnung nach oben gesehen haben. | Bild: DALL-E 3 / ChatGPT prompted by THE DECODER

Die Studie ergab auch, dass die Leistung der Modelle bei kontrafaktischen Aufgaben mit der Häufigkeit der jeweiligen Bedingungen korrelierte. So zeigte GPT-4 bei der Gitarrenakkordaufgabe die beste kontrafaktische Leistung für die relativ häufige alternative Drop-D-Stimmung. Dies deute auf einen Gedächtniseffekt hin, bei dem die Modelle unter häufigeren Bedingungen besser abschneiden.

Die Forscher untersuchten auch den Einfluss von Chain-of-Thought-Prompting (ohne Beispiele), einer Technik, bei der das Modell aufgefordert wird, schrittweise zu denken. Diese Methode verbesserte die Leistung in den meisten Fällen, konnte aber die Lücke zwischen den Standard- und den kontrafaktischen Aufgaben nicht vollständig schließen.

Empfehlung

KI-Forschung

Mathe-Durchbruch von OpenAI zeigt den stillen Fortschritt bei KI-Selbsteinschätzung

DALL-E 3 dreht das Glas nach einer CoT-Aufforderung immerhin ein wenig zur Seite. Auf den Kopf stellen will das KI-Modell das Glas aber nicht. | Bild: DALL-E 3 / ChatGPT prompted by THE DECODER

Die Forscher argumentieren, dass der Erfolg bestehender Sprachmodelle bei Standardaufgaben nicht als ausreichender Beweis für ihre generelle Fähigkeit, die Zielaufgabe zu lösen, angesehen werden sollte. Sie betonen, dass zwischen dem Abruf auswendig gelernter Lösungen und echtem logischen Denken unterschieden werden muss.

Weitere Experimente und Studien haben zuletzt die begrenzten logischen Fähigkeiten großer Sprachmodelle aufgezeigt. Ein möglicher Durchbruch wird daher in der Entwicklung einer Kombination aus Reasoning-Fähigkeiten für KI-Modelle und generativer KI gesehen, sodass GenAI-Systeme das aus Trainingsbeispielen gelernte Wissen auf neue Beispiele übertragen können.

Unter anderem zeigte eine Studie zur Qualität der ChatGPT-Codegenerierung, dass GPT-3.5 Codeaufgaben von der LeetCode-Trainingswebsite, die vor dem Ende des Trainings im Jahr 2021 veröffentlicht wurden, zuverlässig lösen konnte. Die Leistung bei Aufgaben, die nach dem Ende des Trainings veröffentlicht wurden, nahm stark ab.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

Mathe-Durchbruch von OpenAI zeigt den stillen Fortschritt bei KI-Selbsteinschätzung

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

Artikel teilen

Bankverbindung