Inhalt
summary Zusammenfassung

Methoden, die Menschen beim Denken helfen, können auch Sprachmodelle unterstützen. Die Darstellung von Schrittfolgen in Graphenform kann zu signifikanten Leistungsschüben führen.  

Anzeige

Forscher:innen von renommierten Institutionen wie der University of Oxford, dem Alan Turing Institute, dem Allen Institute for AI und der LMU München haben die Fähigkeiten großer Sprachmodelle bei der Lösung komplexer Planungsaufgaben untersucht.

Ziel war es herauszufinden, ob LLMs Pläne optimieren können, die sowohl sequenzielle, also aufeinanderfolgende, als auch parallele Aktionen unter Zeit- und Ressourcenbeschränkungen beinhalten. Die Wissenschaftler:innen stellten ihre Methode "Plan Like a Graph" (PLaG) in einem kürzlich veröffentlichten Paper vor.

Methode für alle Sprachmodelle einsetzbar

Die Ergebnisse zeigten, dass es die Leistung der Sprachmodelle erheblich steigern kann, wenn man das Problem im Prompt durch einen zusätzlichen Graphen darstellt.

Anzeige
Anzeige

Laut den Autor:innen des Papers verbessert PLaG die Leistung aller getesteten Modelle und ist eine sofort einsetzbare Methode, die auch auf aktuelle Modelle werden könne. Das neuste getestete Modell ist das mittlerweile für KI-Verhältnisse etwas betagte GPT-4.

Bild: Lin et al.

Zur Evaluierung von PLaG entwickelten die Autor:innen des Papers einen Benchmark-Datensatz namens AsyncHow, der über 1.600 realistische Planungsprobleme enthält. Der Datensatz basiert auf dem bestehenden ProScript-Set und wurde um Anleitungen von WikiHow ergänzt.

Bild: Lin et al.

Die Forscher:innen testeten PLaG mit verschiedenen neueren und älteren Sprachmodellen, darunter GPT-3.5, GPT-4, Cohere Command sowie Open-Source-Modellen wie LLaMA-2 und Mistral-7B. Allerdings warnten die Forscher:innen, dass die Leistung der LLMs mit zunehmender Komplexität bzw. Anzahl der Schritte der Aufgabe drastisch abnimmt.

Bild: Lin et al.

Die Variante "Build a Graph" (BaG), bei der das LLM seine eigene Graphendarstellung des Problems generiert, führt sogar zu noch besseren Ergebnissen als die Verwendung eines explizit vorgegebenen Graphen. Die Autor:innen des Papers vermuten, dass das LLM die Graphendarstellung für sein eigenes Reasoning optimieren kann.

AGI trotzdem noch in weiter Ferne

Trotz der Verbesserungen durch PLaG sind LLMs laut den Forscher:innen noch nicht robust genug, um als allgemein intelligente Agenten für komplexe Planung eingesetzt zu werden. Es gebe - zumindest derzeit noch - Grenzen für den Einsatz von LLMs als eigenständige digitale Planer.

Empfehlung

Die Autor:innen des Papers sehen mehrere Möglichkeiten, ihre Arbeit in Zukunft weiterzuentwickeln. Dazu gehört es, den Benchmark um zusätzliche Einschränkungen zu erweitern und die Leistungsmuster von LLMs und Menschen bei denselben Planungsaufgaben zu vergleichen.

Seit Veröffentlichung der "PLaG"-Methode hat OpenAI bereits sein neustes Modell o1 vorgestellt, das auf logisches Denken optimiert ist. Spannend wäre es daher zu testen, ob diese Technik auch die Planungsfähigkeiten von o1 verbessert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher:innen von Institutionen wie der University of Oxford und dem Allen Institute for AI haben untersucht, ob Sprachmodelle komplexe Planungsaufgaben lösen können, die sequenzielle und parallele Aktionen unter Zeit- und Ressourcenbeschränkungen beinhalten.
  • Die Methode "Plan Like a Graph" (PLaG) steigert die Leistung aller getesteten Sprachmodelle erheblich, indem sie das Problem im Prompt durch einen zusätzlichen Graphen darstellt. Eine Variante, bei der das Sprachmodell seine eigene Graphendarstellung generiert, führt sogar zu noch besseren Ergebnissen.
  • Trotz der Verbesserungen durch PLaG sind Sprachmodelle laut den Forschenden noch nicht robust genug, um als allgemein intelligente Agenten für komplexe Planung eingesetzt zu werden. Es gibt derzeit noch Grenzen für den Einsatz von Sprachmodellen als eigenständige digitale Planer.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!