Inhalt
summary Zusammenfassung

Eine neue Untersuchung zeigt erhebliche Defizite in der Schlussfolgerungsfähigkeit von KI-Sprachmodellen. Besonders kleinere und kosteneffiziente Modelle haben Schwierigkeiten bei verketteten Mathematikaufgaben auf Grundschulniveau.

Anzeige

Forscher des Mila-Instituts, Google DeepMind und Microsoft Research haben in einer aktuellen Studie erhebliche Unterschiede in der Schlussfolgerungsfähigkeit verschiedener KI-Sprachmodelle aufgedeckt. Die Wissenschaftler untersuchten, wie gut die Modelle bei der Lösung von verketteten mathematischen Textaufgaben auf Grundschulniveau abschneiden.

Dazu entwickelten sie den "Compositional GSM"-Test, bei dem zwei Textaufgaben aus dem bekannten GSM8K-Datensatz so kombiniert werden, dass die Antwort der ersten Aufgabe als Variable in der zweiten Aufgabe verwendet wird. Die Ergebnisse zeigen, dass viele Modelle deutlich schlechter abschneiden als erwartet.

Streudiagramm: GSM8K vs. Compositional GSM Genauigkeit für diverse LLMs, zeigt Leistungsabfall bei komplexeren Aufgaben unter Erwartungslinie.
Die Streuung der Datenpunkte veranschaulicht den "Reasoning Gap" zwischen GSM8K und Compositional GSM für verschiedene Sprachmodelle. Die meisten Modelle bleiben unter der erwarteten Leistungskurve, was auf Schwierigkeiten bei komplexeren Reasoning-Aufgaben hinweist. | Bild: Hosseini et al.

"Wir beobachten eine signifikante Lücke in der Schlussfolgerungsfähigkeit der meisten Sprachmodelle", erklären die Autoren um Arian Hosseini vom Mila-Institut. Diese "Reasoning Gap" sei bei kleineren, kosteneffizienteren und sogar bei auf Mathematik spezialisierten Modellen besonders ausgeprägt.

Anzeige
Anzeige

Alles nur gelernt?

Die Studie zeigt gravierende Schwächen bei kleineren und kostengünstigeren Sprachmodellen, wenn es um komplexere Schlussfolgerungen geht. Während diese Modelle in herkömmlichen mathematischen Benchmarks wie GSM8K oft ähnlich gut abschneiden wie ihre größeren Pendants, weisen sie im Compositional GSM Test eine zwei- bis zwölfmal größere Logiklücke auf.

Beispielsweise fällt GPT-4o mini im Compositional GSM deutlich hinter GPT-4o zurück, während es im Original-Benchmark fast gleichauf liegt. Ähnliche Muster zeigen sich bei anderen Modellfamilien wie Gemini und LLAMA3.

Balkendiagramm: Vergleich von Testgenauigkeiten für GSM8K und Compositional GSM bei verschiedenen LLM-Familien, zeigt Leistungsabfall bei günstigeren Modellen.
Die Grafik verdeutlicht, dass kleine und günstige Sprachmodelle zwar ähnliche Leistungen im ursprünglichen GSM8K-Test erzielen, aber bei komplexeren Aufgaben im Compositional GSM deutlich schlechter abschneiden. Das weist auf Unterschiede in den Reasoning-Fähigkeiten verschiedener Modellgrößen hin. | Bild: Hosseini et al.

Diese Ergebnisse deuten laut den Forschern darauf hin, dass kleine Modelle zwar in der Lage sind, oberflächliche Muster in Standardaufgaben zu erkennen, aber Schwierigkeiten haben, dieses Wissen auf neue Kontexte zu übertragen.

Die Forscher vermuten, dass die derzeitigen Trainingsmethoden für kleine Modelle zu sehr auf die Optimierung gängiger Benchmarks ausgerichtet sind, was zu Lasten der allgemeinen Schlussfolgerungsfähigkeit gehe-

Balkendiagramm: Reasoning Gap verschiedener LLMs, sortiert nach Modellgröße und Spezialisierung, zeigt größere Gaps bei kleineren Modellen.
Das Diagramm zeigt den "Reasoning Gap" verschiedener Sprachmodelle. Kleinere, kostengünstigere und mathematisch spezialisiertere Modelle zeigen größere Leistungsunterschiede zwischen einfachen und komplexen Aufgaben, was auf Grenzen ihrer Logik-Fähigkeiten hinweist.| Bild: Hosseini et al.

Ähnliche Schwächen zeigen auch die kleinen, auf Mathematik spezialisierten Modelle. So erreicht Qwen2.5-Math-7B-IT zwar eine Genauigkeit von über 80 Prozent bei schwierigen Gymnasialaufgaben, löst aber weniger als 60 Prozent der verketteten Grundschulaufgaben richtig.

Empfehlung

Besonders aufschlussreich sind die Ergebnisse zum Instruction Tuning, einer Methode zur Verfeinerung von KI-Sprachmodellen. Dabei wird das Modell darauf abgestimmt, bestimmte Anweisungen oder Aufgaben zu verstehen und auszuführen.

Bei kleinen Modellen führt das Instruction Tuning zu deutlichen Verbesserungen im originalen GSM8K-Test, aber nur zu geringen Verbesserungen im Compositional GSM. Bei den Instruktionsvarianten größerer Modelle ist dieser Effekt nicht zu beobachten. Das deute auf grundsätzliche Unterschiede in der Lern- und Generalisierungsfähigkeit kleinerer Modelle hin.

Balkendiagramm-Set: Vergleich der Testgenauigkeit von Pretrained und Instruction-Tuned Modellen für GSM8K und Compositional GSM bei verschiedenen LLM-Größen.
Die Abbildung zeigt den Einfluss von Instruction-Tuning auf die Leistung verschiedener Sprachmodelle in den GSM8K- und Compositional GSM-Tests. Während kleinere Modelle signifikante Verbesserungen bei GSM8K, aber geringere bei Compositional GSM zeigen, zeigen größere Modelle konsistentere Verbesserungen in beiden Bereichen. Dies unterstreicht die Bedeutung der Modellgröße für komplexe Reasoning-Aufgaben. | Bild: Hosseini et al.

Die Studie ist insofern nicht ganz aktuell, da das neue, für Logik optimierte o1-Modell von OpenAI nicht getestet wurde. Auch die Gemini-Modelle von Google sollen nach Updates in Mathematik besser abschneiden.

Ein Mathematikprofessor hat kürzlich gezeigt, dass ihm mit o1 ein mathematischer Beweis gelungen ist, an dem er zuvor mit anderen LLMs gescheitert war. Ein Mensch konnte die Aufgabe jedoch schneller und eleganter lösen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mehr als nur ein neuer Benchmark

Die Forscher betonen, dass diese systematischen Unterschiede bisher von den gängigen Bewertungsmethoden verdeckt wurden. Sie warnen davor, die Fähigkeiten kleiner Modelle zu überschätzen und fordern eine Neubewertung von Entwicklungsstrategien für kostengünstige KI-Systeme.

Insgesamt wirft die Studie die Frage auf, ob kleine und kostengünstige Modelle grundsätzlich in ihrer Fähigkeit zu komplexeren Schlussfolgerungen und Verallgemeinerungen eingeschränkt sind. Dies könnte weitreichende Konsequenzen für den Einsatz solcher Systeme in der Praxis haben.

Das Ergebnis wirft auch einen Schatten auf das Narrativ der letzten Monate, dass Sprachmodelle zwar nicht wesentlich leistungsfähiger, aber effizienter geworden seien und man durch Skalierung dieser effizienteren Modelle in neue Leistungssphären vorstoßen könne.

Die Autoren betonen, dass es nicht ihr Ziel war, mit dem Compositional GSM Test einen weiteren Benchmark für Sprachmodelle zu schaffen. Vielmehr sehen sie ihre Arbeit als eine Fallstudie, die einen tieferen Einblick in die Funktionsweise und Grenzen aktueller KI-Systeme geben soll.

Durch die Verkettung von Aufgaben wollen die Wissenschaftler testen, ob die Modelle wirklich in der Lage sind, gelerntes Wissen flexibel anzuwenden und zu kombinieren. Dies sei entscheidend, um echtes Verständnis von oberflächlichem Mustererkennen zu unterscheiden.

Die Forscher sehen den Compositional GSM Test als ein Werkzeug, um die tatsächlichen Fähigkeiten von Sprachmodellen besser zu verstehen. Sie hoffen, dass ihre Methodik auch auf andere Domänen und Benchmarks angewendet werden kann, um ein umfassenderes Bild der KI-Fähigkeiten zu erhalten.

Anzeige
Anzeige

Die Logik-Probleme von Sprachmodellen sind gut dokumentiert

Dass LLMs Probleme mit Logik haben, ist keine neue Erkenntnis. Schon frühere Studien zeigten, dass Sprachmodelle bei einfachsten logischen Schlüssen schwach sind. So kennen sie zwar faktisch die Mutter von Tom Cruise, können aber nicht ableiten, dass Cruise dann der Sohn dieser Mutter ist - der sogenannte "Reversal Curse".

Eine aktuelle Studie demonstriert die logischen Schwächen anhand einer einfachen Textaufgabe. Selbst führende Modelle wie GPT-4o und Claude konnten diese nur sporadisch lösen, eine härtere Version brachte sie an den Rand des Zusammenbruchs ihrer Denkfähigkeit. Dabei zeigten die Modelle starkes Selbstvertrauen in ihre falschen Lösungen und setzten Pseudo-Logik ein, um diese zu rechtfertigen.

Auch einfache Planungsrätsel wie das Wolf-Ziege-Kohl-Problem können aktuelle Sprachmodelle nicht zuverlässig lösen und liefern mitunter absurde Lösungen. Diese Ergebnisse sind umso bemerkenswerter, als dieselben Modelle bei gängigen Logik-Benchmarks Spitzenwerte erzielen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher des Mila-Instituts, Google DeepMind und Microsoft Research haben in einer Studie erhebliche Unterschiede in der Schlussfolgerungsfähigkeit verschiedener KI-Sprachmodelle bei verketteten (!) mathematischen Textaufgaben auf Grundschulniveau aufgedeckt.
  • Der entwickelte "Compositional GSM"-Test zeigt, dass insbesondere kleinere, kostengünstigere und auch mathematisch spezialisierte Modelle deutlich schlechter abschneiden als erwartet und ihre Schwächen durch hohe Punktzahlen in gängigen, einfacheren mathematischen Benchmarks überdeckt werden können.
  • Die Ergebnisse deuten darauf hin, dass viele Modelle eher oberflächliche Muster erkennen, anstatt die zugrunde liegenden Konzepte wirklich zu verstehen, was weitreichende Folgen für den Einsatz solcher Systeme in der Praxis haben könnte.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!