Gängigen Sprachmodellen fehlt eine wichtige Fähigkeit für nützliche KI-Agenten

2. April 2024

Midjourney prompted by THE DECODER

Forscher untersuchen, ob große Sprachmodelle effektiv exploratives Verhalten zeigen können, was als Schlüsselelement für nützliche KI-Agenten gilt.

Ein Forschungsteam von Microsoft Research und der Carnegie Mellon University untersuchte die Fähigkeit großer Sprachmodelle zur Exploration, einem Schlüsselaspekt des Reinforcement Learning und der Entscheidungsfindung. Die Ergebnisse zeigen, dass gängige Modelle wie GPT-3.5, GPT-4 und Llama 2 ohne wesentliche externe Eingriffe keine robuste Explorationsfähigkeit aufweisen.

In dieser Arbeit sollen die Sprachmodelle als Entscheidungsagenten in einfachen Multi-Armed Bandit (MAB) Umgebungen innerhalb ihres Aufmerksamkeitsfensters - also im Kontext - agieren. Die Hauptaufgaben der Sprachmodelle waren Exploration und Exploitation in diesen Szenarien. Exploration bedeutet hier die Fähigkeit, Informationen zu sammeln, um Alternativen zu bewerten und Unsicherheiten zu reduzieren, indem Entscheidungen getroffen werden, die kurzfristig suboptimal sein können, aber langfristig wertvolle Daten liefern. Ausbeutung bedeutet die Entscheidung für die Option, die auf der Grundlage der bisher gesammelten Informationen am besten erscheint, um die unmittelbare Belohnung zu maximieren. Beide Fähigkeiten sind wichtig für den praktikablen Einsatz von Sprachmodell-basierten KI-Agenten.

Konkret wurden die Sprachmodelle daraufhin untersucht, ob und wie gut sie in der Lage sind, diese beiden Kernaspekte des Reinforcement Learning - Exploration und Exploitation - in einem kontextualisierten Setting, das innerhalb des Modellprompts vollständig beschrieben ist, auszubalancieren. Die Experimente umfassten verschiedene Konfigurationen von Prompts und die Bewertung der Fähigkeit der Modelle, ohne zusätzliches Training oder Eingreifen in MAB-Umgebungen zu navigieren.

GPT-4 mit Spickzettel am besten - neue Methoden nötig, sagt das Team

In den meisten Fällen zeigten die Modelle jedoch kein robustes Explorationsverhalten: Entweder brachen sie permanent ab und wählten nie die beste Option aus, oder sie verteilten die Auswahl gleichmäßig auf alle Optionen, ohne die schlechteren auszuschließen.

Nur eine einzige Konfiguration des GPT-4 mit einem speziellen Prompt-Design zeigte tatsächlich ein erfolgreiches Explorationsverhalten, das mit zwei Referenzalgorithmen vergleichbar war. Dieser Prompt versorgte das Modell mit zusätzlichen Hinweisen zur Exploration, fasste die Interaktionshistorie zusammen und nutzte Chain-of-Thought-Reasoning.

Die Ergebnisse deuten laut dem Team jedoch darauf hin, dass Sprachmodelle ohne erhebliche Eingriffe nicht über die notwendigen Fähigkeiten für komplexe Entscheidungsfindungen verfügen - und daher nicht für KI-Agenten geeignet sind. Einfachere Probleme wie die getesteten Multi-Armed Bandits können zwar teilweise gelöst werden, für anspruchsvollere Anwendungen seien aber wahrscheinlich zusätzliches Finetuning oder spezialisierte Datensätze notwendig.

Damit liefert das Team eine theoretische Begründung für ein Phänomen, das in der Praxis bereits zu beobachten ist: KI-Agenten-Frameworks wie AutoGPT waren zu Beginn der jüngsten KI-Welle schnell im Zentrum der Aufmerksamkeit, doch wirklich produktiv eingesetzt werden solche KI-Agenten bislang nur sehr selten.

Firmen wie OpenAI arbeiten schon seit einiger Zeit an besseren KI-Agenten, und die Implementierung von Reinforcement Learning spielt dabei vermutlich mit dem Q*-Projekt eine wichtige Rolle.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Gängigen Sprachmodellen fehlt eine wichtige Fähigkeit für nützliche KI-Agenten

GPT-4 mit Spickzettel am besten - neue Methoden nötig, sagt das Team

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.