Inhalt
summary Zusammenfassung

Meta-Forscher haben untersucht, ob Reinforcement Learning die Schlussfolgerungsfähigkeit großer Sprachmodelle verbessern kann.

Anzeige

Die Forscher verglichen verschiedene Algorithmen, darunter Proximal Policy Optimization (PPO), Expert Iteration (EI) und Return-Conditioned RL (RCRL), um herauszufinden, wie gut sie die Argumentationsfähigkeit von Sprachmodellen verbessern können.

Die Kernidee ist, dass die Modelle durch RL-Feintuning ihre eigenen Trainingsdaten erzeugen können. Während die Belohnungen dazu dienen, die Modelle in Richtung der richtigen Antworten zu lenken, ist die durch RL ermöglichte Exploration entscheidend, um sicherzustellen, dass die Modelle nicht nur die offensichtlichsten Lösungen lernen, sondern auch kreative und vielfältige Ansätze entwickeln - so zumindest die Idee. Projekte wie Deepminds AlphaZero oder Metas CICERO haben gezeigt, dass RL dafür ein mächtiges Werkzeug sein kann.

Die Expert Iteration hat sich in Metas Tests als besonders effektiv erwiesen. Bei dieser Methode wird ein anfängliches Expertenmodell mehrmals auf eine Trainingsmenge angewendet, um eine Reihe von Ausgaben zu erzeugen. Diese werden dann verwendet, um das Modell weiter zu trainieren. Überraschenderweise war die Experteniteration fast so effizient wie komplexere Algorithmen wie PPO.

Anzeige
Anzeige

Reinforcement Learning hilft - hat aber seien Grenzen

Ein zentrales Ergebnis der Arbeit ist, dass sich der Leistungsunterschied zwischen vortrainierten Modellen und Modellen, die zusätzlich speziell auf logisches Schließen mit Extra-Daten (SFT-Daten) trainiert wurden, nach dem RL-Feintuning verringerte. Nach einigen wenigen Trainingsiterationen übertrafen die via RL-Methoden trainierten Modelle die Finetuning-Modelle um knapp zehn Prozent.

Interessanterweise profitierte keiner der RL-Algorithmen dabei signifikant von dichteren Belohnungen, d.h. Rückmeldungen zu einzelnen Schritten des logischen Schließens, die über eine Rückmeldung am Ende der Ausgabe hinausgingen. Das Team schließt daraus, dass eine zu starke Konzentration auf spezifische Belohnungen die Vielfalt der vom Modell untersuchten Lösungen einschränken kann.

Ab einer bestimmten Iteration des RL-Trainings verbesserte sich die Leistung der Modelle nicht mehr. Das Team kommt daher zu dem Schluss, dass die Verwendung vortrainierter Modelle zwar eine gute Ausgangsbasis für die Exploration bietet, die getesteten RL-Methoden jedoch keine signifikante Exploration über die Pretraining/SFT-Daten hinaus ermöglichen. "Unabhängig von der Art des verwendeten Algorithmus oder der Qualität der Belohnung führen alle Studentenmodelle eine ähnliche Exploration durch, was zu einer ähnlichen Leistung führt", so das Team.

Eine der Haupteinschränkungen für die weitere Verbesserung der logischen Fähigkeiten von Sprachmodellen liege daher in einer ausgeprägten Exploration. Da die Modelle in der RL-Trainingsphase nicht signifikant über das hinaus explorieren, was sie bereits aus der Vor-Trainingsphase wissen, sei die Entdeckung neuer Techniken von entscheidender Bedeutung für Fortschritte in der Schlussfolgerungsfähigkeit von Sprachmodellen.  Erste Ideen gäbe es bereits, beispielsweise Methoden wie Tree of Thoughts, XOT oder der Verknüpfung von Sprachmodellen mit evolutionären Algorithmen. Auch OpenAI untersucht auch solche Methoden wohl mit Q*.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta-Forscher haben Reinforcement Learning (RL) untersucht, um die Schlussfolgerungsfähigkeit großer Sprachmodelle zu verbessern. Sie verglichen Algorithmen wie Proximal Policy Optimization (PPO), Expert Iteration (EI) und Return-Conditioned RL (RCRL).
  • Als besonders effektiv erwies sich die Experteniteration. Nach einigen Trainingsiterationen übertrafen die mit den RL-Methoden trainierten Modelle die Finetuning-Modelle um knapp 10 %, erreichten damit aber die Grenze der Möglichkeiten der getesteten Methoden.
  • Eine Haupteinschränkung für die weitere Verbesserung der logischen Fähigkeiten von Sprachmodellen liegt in einer ausgeprägten Exploration, so das Team. Neue Techniken wie Tree of Thoughts, XOT oder die Verknüpfung von Sprachmodellen mit evolutionären Algorithmen könnten entscheidend für Fortschritte in der Schlussfolgerungsfähigkeit von Sprachmodellen sein.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!