Eine neue Untersuchung zeigt, dass selbst fortschrittliche KI-Sprachmodelle wie OpenAIs o1-preview bei komplexen Planungsaufgaben scheitern. Die Forscher identifizieren zwei Hauptgründe und untersuchen Verbesserungsansätze.
Aktuelle KI-Sprachmodelle stoßen bei komplexen Planungsaufgaben an ihre Grenzen. Das zeigt eine neue Studie von Forschern der Fudan University, Carnegie Mellon University, ByteDance und der Ohio State University.
Die Wissenschaftler untersuchten das Planungsverhalten von Sprachmodellen anhand zweier Benchmarks: BlocksWorld, einer klassischen Planungsaufgabe, und TravelPlanner, einem realitätsnahen Szenario zur Reiseplanung.
Im BlocksWorld-Benchmark erreichten die meisten Modelle eine Genauigkeit von unter 50 Prozent, nur o1-mini (knapp 60 Prozent) und o1-preview (fast 100 Prozent) schnitten gut ab. Beim komplexeren TravelPlanner hingegen waren die Ergebnisse für alle getesteten Modelle enttäuschend.
GPT-4o erreichte nur eine Erfolgsquote von 7,8 Prozent, während o1-preview 15,6 Prozent erreichte. Andere Modelle wie GPT-4o-Mini, Llama3.1 und Qwen2 erreichten Erfolgsquoten zwischen 0 und 2,2 Prozent. Obwohl o1-preview eine Verbesserung gegenüber GPT-4o zeigt, bleibt es weit hinter den menschlichen Planungsfähigkeiten zurück.
Zwei Hauptprobleme identifiziert
Die Forscher identifizierten zwei zentrale Schwachstellen der KI-Modelle bei Planungsaufgaben. Zum einen beziehen die Modelle vorgegebene Regeln und Bedingungen nur unzureichend in ihre Planung ein.
Das führt häufig zu Plänen, die gegen grundlegende Vorgaben verstoßen. Zum anderen verlieren die Modelle mit zunehmender Planungsdauer den Bezug zur ursprünglichen Frage. Je länger der zu erstellende Plan, desto unwahrscheinlicher wird es, dass er tatsächlich die gestellte Aufgabe erfüllt.
Um diese Probleme zu untersuchen, verwendeten die Forscher eine Methode namens "Permutation Feature Importance". Damit konnten sie den Einfluss einzelner Eingabekomponenten auf den Planungsprozess quantifizieren.
Verbesserungsansätze zeigen nur begrenzten Erfolg
Die Studie untersuchte auch zwei gängige Ansätze zur Verbesserung der Planungsfähigkeit von KI-Modellen. Beim episodischen Gedächtnis-Update werden dem Modell Erkenntnisse aus früheren Planungsversuchen zur Verfügung gestellt. Das verbesserte zwar das Verständnis für Einschränkungen, führte aber nicht zu einer detaillierteren Berücksichtigung einzelner Regeln.
Das parametrische Gedächtnis-Update hingegen nutzt eine Feinabstimmung des Modells, um den Einfluss der Aufgabe auf den Planungsprozess zu erhöhen. Das grundsätzliche Problem des nachlassenden Einflusses bei längeren Plänen blieb jedoch bestehen.
Beide Ansätze zeigten also Verbesserungen, konnten die identifizierten Grundprobleme aber nicht vollständig lösen. Code und Daten sollen in Kürze auf GitHub verfügbar sein.