Anzeige
Skip to content

KI hat keinen Plan: Selbst OpenAIs o1-preview versagt bei Reiseplanung

Image description
Midjourney prompted by THE DECODER

Eine neue Untersuchung zeigt, dass selbst fortschrittliche KI-Sprachmodelle wie OpenAIs o1-preview bei komplexen Planungsaufgaben scheitern. Die Forscher identifizieren zwei Hauptgründe und untersuchen Verbesserungsansätze.

Aktuelle KI-Sprachmodelle stoßen bei komplexen Planungsaufgaben an ihre Grenzen. Das zeigt eine neue Studie von Forschern der Fudan University, Carnegie Mellon University, ByteDance und der Ohio State University.

Die Wissenschaftler untersuchten das Planungsverhalten von Sprachmodellen anhand zweier Benchmarks: BlocksWorld, einer klassischen Planungsaufgabe, und TravelPlanner, einem realitätsnahen Szenario zur Reiseplanung.

Im BlocksWorld-Benchmark erreichten die meisten Modelle eine Genauigkeit von unter 50 Prozent, nur o1-mini (knapp 60 Prozent) und o1-preview (fast 100 Prozent) schnitten gut ab. Beim komplexeren TravelPlanner hingegen waren die Ergebnisse für alle getesteten Modelle enttäuschend.

Anzeige
DEC_D_Incontent-1

GPT-4o erreichte nur eine Erfolgsquote von 7,8 Prozent, während o1-preview 15,6 Prozent erreichte. Andere Modelle wie GPT-4o-Mini, Llama3.1 und Qwen2 erreichten Erfolgsquoten zwischen 0 und 2,2 Prozent. Obwohl o1-preview eine Verbesserung gegenüber GPT-4o zeigt, bleibt es weit hinter den menschlichen Planungsfähigkeiten zurück.

Zwei Hauptprobleme identifiziert

Die Forscher identifizierten zwei zentrale Schwachstellen der KI-Modelle bei Planungsaufgaben. Zum einen beziehen die Modelle vorgegebene Regeln und Bedingungen nur unzureichend in ihre Planung ein.

Das führt häufig zu Plänen, die gegen grundlegende Vorgaben verstoßen. Zum anderen verlieren die Modelle mit zunehmender Planungsdauer den Bezug zur ursprünglichen Frage. Je länger der zu erstellende Plan, desto unwahrscheinlicher wird es, dass er tatsächlich die gestellte Aufgabe erfüllt.

Um diese Probleme zu untersuchen, verwendeten die Forscher eine Methode namens "Permutation Feature Importance". Damit konnten sie den Einfluss einzelner Eingabekomponenten auf den Planungsprozess quantifizieren.

Anzeige
DEC_D_Incontent-2

Verbesserungsansätze zeigen nur begrenzten Erfolg

Die Studie untersuchte auch zwei gängige Ansätze zur Verbesserung der Planungsfähigkeit von KI-Modellen. Beim episodischen Gedächtnis-Update werden dem Modell Erkenntnisse aus früheren Planungsversuchen zur Verfügung gestellt. Das verbesserte zwar das Verständnis für Einschränkungen, führte aber nicht zu einer detaillierteren Berücksichtigung einzelner Regeln.

Das parametrische Gedächtnis-Update hingegen nutzt eine Feinabstimmung des Modells, um den Einfluss der Aufgabe auf den Planungsprozess zu erhöhen. Das grundsätzliche Problem des nachlassenden Einflusses bei längeren Plänen blieb jedoch bestehen.

Beide Ansätze zeigten also Verbesserungen, konnten die identifizierten Grundprobleme aber nicht vollständig lösen. Code und Daten sollen in Kürze auf GitHub verfügbar sein.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv | GitHub

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren