Inhalt
summary Zusammenfassung

Eine neue Untersuchung zeigt, dass selbst fortschrittliche KI-Sprachmodelle wie OpenAIs o1-preview bei komplexen Planungsaufgaben scheitern. Die Forscher identifizieren zwei Hauptgründe und untersuchen Verbesserungsansätze.

Anzeige

Aktuelle KI-Sprachmodelle stoßen bei komplexen Planungsaufgaben an ihre Grenzen. Das zeigt eine neue Studie von Forschern der Fudan University, Carnegie Mellon University, ByteDance und der Ohio State University.

Die Wissenschaftler untersuchten das Planungsverhalten von Sprachmodellen anhand zweier Benchmarks: BlocksWorld, einer klassischen Planungsaufgabe, und TravelPlanner, einem realitätsnahen Szenario zur Reiseplanung.

Im BlocksWorld-Benchmark erreichten die meisten Modelle eine Genauigkeit von unter 50 Prozent, nur o1-mini (knapp 60 Prozent) und o1-preview (fast 100 Prozent) schnitten gut ab. Beim komplexeren TravelPlanner hingegen waren die Ergebnisse für alle getesteten Modelle enttäuschend.

Anzeige
Anzeige

GPT-4o erreichte nur eine Erfolgsquote von 7,8 Prozent, während o1-preview 15,6 Prozent erreichte. Andere Modelle wie GPT-4o-Mini, Llama3.1 und Qwen2 erreichten Erfolgsquoten zwischen 0 und 2,2 Prozent. Obwohl o1-preview eine Verbesserung gegenüber GPT-4o zeigt, bleibt es weit hinter den menschlichen Planungsfähigkeiten zurück.

Zwei Hauptprobleme identifiziert

Die Forscher identifizierten zwei zentrale Schwachstellen der KI-Modelle bei Planungsaufgaben. Zum einen beziehen die Modelle vorgegebene Regeln und Bedingungen nur unzureichend in ihre Planung ein.

Das führt häufig zu Plänen, die gegen grundlegende Vorgaben verstoßen. Zum anderen verlieren die Modelle mit zunehmender Planungsdauer den Bezug zur ursprünglichen Frage. Je länger der zu erstellende Plan, desto unwahrscheinlicher wird es, dass er tatsächlich die gestellte Aufgabe erfüllt.

Um diese Probleme zu untersuchen, verwendeten die Forscher eine Methode namens "Permutation Feature Importance". Damit konnten sie den Einfluss einzelner Eingabekomponenten auf den Planungsprozess quantifizieren.

Verbesserungsansätze zeigen nur begrenzten Erfolg

Die Studie untersuchte auch zwei gängige Ansätze zur Verbesserung der Planungsfähigkeit von KI-Modellen. Beim episodischen Gedächtnis-Update werden dem Modell Erkenntnisse aus früheren Planungsversuchen zur Verfügung gestellt. Das verbesserte zwar das Verständnis für Einschränkungen, führte aber nicht zu einer detaillierteren Berücksichtigung einzelner Regeln.

Empfehlung

Das parametrische Gedächtnis-Update hingegen nutzt eine Feinabstimmung des Modells, um den Einfluss der Aufgabe auf den Planungsprozess zu erhöhen. Das grundsätzliche Problem des nachlassenden Einflusses bei längeren Plänen blieb jedoch bestehen.

Beide Ansätze zeigten also Verbesserungen, konnten die identifizierten Grundprobleme aber nicht vollständig lösen. Code und Daten sollen in Kürze auf GitHub verfügbar sein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine neue Studie zeigt, dass selbst fortschrittliche KI-Sprachmodelle wie OpenAIs o1-preview bei komplexen Planungsaufgaben Schwierigkeiten haben. Die Forscher testeten die Modelle mit zwei Benchmarks: BlocksWorld und TravelPlanner.
  • Bei BlocksWorld schnitten o1-mini und o1-preview gut ab, aber beim komplexeren TravelPlanner waren die Ergebnisse aller Modelle schwach. GPT-4o erreichte nur 7,8 Prozent Erfolgsquote, o1-preview 15,6 Prozent.
  • Die Forscher identifizierten zwei Hauptprobleme: Die Modelle berücksichtigen vorgegebene Regeln unzureichend und verlieren bei längeren Plänen den Bezug zur Aufgabe. Verbesserungsansätze wie episodisches und parametrisches Gedächtnis-Update zeigten nur begrenzte Wirkung.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!