Inhalt
summary Zusammenfassung

Forscher untersuchen, ob große Sprachmodelle effektiv exploratives Verhalten zeigen können, was als Schlüsselelement für nützliche KI-Agenten gilt.

Ein Forschungsteam von Microsoft Research und der Carnegie Mellon University untersuchte die Fähigkeit großer Sprachmodelle zur Exploration, einem Schlüsselaspekt des Reinforcement Learning und der Entscheidungsfindung. Die Ergebnisse zeigen, dass gängige Modelle wie GPT-3.5, GPT-4 und Llama 2 ohne wesentliche externe Eingriffe keine robuste Explorationsfähigkeit aufweisen.

In dieser Arbeit sollen die Sprachmodelle als Entscheidungsagenten in einfachen Multi-Armed Bandit (MAB) Umgebungen innerhalb ihres Aufmerksamkeitsfensters - also im Kontext - agieren. Die Hauptaufgaben der Sprachmodelle waren Exploration und Exploitation in diesen Szenarien. Exploration bedeutet hier die Fähigkeit, Informationen zu sammeln, um Alternativen zu bewerten und Unsicherheiten zu reduzieren, indem Entscheidungen getroffen werden, die kurzfristig suboptimal sein können, aber langfristig wertvolle Daten liefern. Ausbeutung bedeutet die Entscheidung für die Option, die auf der Grundlage der bisher gesammelten Informationen am besten erscheint, um die unmittelbare Belohnung zu maximieren. Beide Fähigkeiten sind wichtig für den praktikablen Einsatz von Sprachmodell-basierten KI-Agenten.

Konkret wurden die Sprachmodelle daraufhin untersucht, ob und wie gut sie in der Lage sind, diese beiden Kernaspekte des Reinforcement Learning - Exploration und Exploitation - in einem kontextualisierten Setting, das innerhalb des Modellprompts vollständig beschrieben ist, auszubalancieren. Die Experimente umfassten verschiedene Konfigurationen von Prompts und die Bewertung der Fähigkeit der Modelle, ohne zusätzliches Training oder Eingreifen in MAB-Umgebungen zu navigieren.

Anzeige
Anzeige

GPT-4 mit Spickzettel am besten - neue Methoden nötig, sagt das Team

In den meisten Fällen zeigten die Modelle jedoch kein robustes Explorationsverhalten: Entweder brachen sie permanent ab und wählten nie die beste Option aus, oder sie verteilten die Auswahl gleichmäßig auf alle Optionen, ohne die schlechteren auszuschließen.

Nur eine einzige Konfiguration des GPT-4 mit einem speziellen Prompt-Design zeigte tatsächlich ein erfolgreiches Explorationsverhalten, das mit zwei Referenzalgorithmen vergleichbar war. Dieser Prompt versorgte das Modell mit zusätzlichen Hinweisen zur Exploration, fasste die Interaktionshistorie zusammen und nutzte Chain-of-Thought-Reasoning.

Die Ergebnisse deuten laut dem Team jedoch darauf hin, dass Sprachmodelle ohne erhebliche Eingriffe nicht über die notwendigen Fähigkeiten für komplexe Entscheidungsfindungen verfügen - und daher nicht für KI-Agenten geeignet sind. Einfachere Probleme wie die getesteten Multi-Armed Bandits können zwar teilweise gelöst werden, für anspruchsvollere Anwendungen seien aber wahrscheinlich zusätzliches Finetuning oder spezialisierte Datensätze notwendig.

Damit liefert das Team eine theoretische Begründung für ein Phänomen, das in der Praxis bereits zu beobachten ist: KI-Agenten-Frameworks wie AutoGPT waren zu Beginn der jüngsten KI-Welle schnell im Zentrum der Aufmerksamkeit, doch wirklich produktiv eingesetzt werden solche KI-Agenten bislang nur sehr selten.

Firmen wie OpenAI arbeiten schon seit einiger Zeit an besseren KI-Agenten, und die Implementierung von Reinforcement Learning spielt dabei vermutlich mit dem Q*-Projekt eine wichtige Rolle.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Microsoft Research und der Carnegie Mellon University untersuchten, ob gängige Sprachmodelle wie GPT-3.5, GPT-4 und Llama 2 in der Lage sind, effektives exploratives Verhalten zu zeigen. Das ist wichtig für Reinforcement Learning und damit auch für Sprachmodell-basierte KI-Agenten.
  • In den meisten Fällen zeigten die Modelle kein robustes Explorationsverhalten. Nur GPT-4 mit einem speziellen Prompt-Design, das zusätzliche Hinweise zur Exploration, eine Zusammenfassung der Interaktionshistorie und Chain-of-Thought-Reasoning enthielt, zeigte ein erfolgreiches Explorationsverhalten.
  • Die Ergebnisse deuten darauf hin, dass Sprachmodelle ohne erhebliche Eingriffe nicht über die notwendigen Fähigkeiten für komplexe Entscheidungsfindungen verfügen. Für anspruchsvollere Anwendungen seien zusätzliches Finetuning oder spezialisierte Datensätze notwendig.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!