Meta-Forscher haben untersucht, ob Reinforcement Learning die Schlussfolgerungsfähigkeit großer Sprachmodelle verbessern kann.
Die Forscher verglichen verschiedene Algorithmen, darunter Proximal Policy Optimization (PPO), Expert Iteration (EI) und Return-Conditioned RL (RCRL), um herauszufinden, wie gut sie die Argumentationsfähigkeit von Sprachmodellen verbessern können.
Die Kernidee ist, dass die Modelle durch RL-Feintuning ihre eigenen Trainingsdaten erzeugen können. Während die Belohnungen dazu dienen, die Modelle in Richtung der richtigen Antworten zu lenken, ist die durch RL ermöglichte Exploration entscheidend, um sicherzustellen, dass die Modelle nicht nur die offensichtlichsten Lösungen lernen, sondern auch kreative und vielfältige Ansätze entwickeln - so zumindest die Idee. Projekte wie Deepminds AlphaZero oder Metas CICERO haben gezeigt, dass RL dafür ein mächtiges Werkzeug sein kann.
Die Expert Iteration hat sich in Metas Tests als besonders effektiv erwiesen. Bei dieser Methode wird ein anfängliches Expertenmodell mehrmals auf eine Trainingsmenge angewendet, um eine Reihe von Ausgaben zu erzeugen. Diese werden dann verwendet, um das Modell weiter zu trainieren. Überraschenderweise war die Experteniteration fast so effizient wie komplexere Algorithmen wie PPO.
Reinforcement Learning hilft - hat aber seien Grenzen
Ein zentrales Ergebnis der Arbeit ist, dass sich der Leistungsunterschied zwischen vortrainierten Modellen und Modellen, die zusätzlich speziell auf logisches Schließen mit Extra-Daten (SFT-Daten) trainiert wurden, nach dem RL-Feintuning verringerte. Nach einigen wenigen Trainingsiterationen übertrafen die via RL-Methoden trainierten Modelle die Finetuning-Modelle um knapp zehn Prozent.
Interessanterweise profitierte keiner der RL-Algorithmen dabei signifikant von dichteren Belohnungen, d.h. Rückmeldungen zu einzelnen Schritten des logischen Schließens, die über eine Rückmeldung am Ende der Ausgabe hinausgingen. Das Team schließt daraus, dass eine zu starke Konzentration auf spezifische Belohnungen die Vielfalt der vom Modell untersuchten Lösungen einschränken kann.
Ab einer bestimmten Iteration des RL-Trainings verbesserte sich die Leistung der Modelle nicht mehr. Das Team kommt daher zu dem Schluss, dass die Verwendung vortrainierter Modelle zwar eine gute Ausgangsbasis für die Exploration bietet, die getesteten RL-Methoden jedoch keine signifikante Exploration über die Pretraining/SFT-Daten hinaus ermöglichen. "Unabhängig von der Art des verwendeten Algorithmus oder der Qualität der Belohnung führen alle Studentenmodelle eine ähnliche Exploration durch, was zu einer ähnlichen Leistung führt", so das Team.
Eine der Haupteinschränkungen für die weitere Verbesserung der logischen Fähigkeiten von Sprachmodellen liege daher in einer ausgeprägten Exploration. Da die Modelle in der RL-Trainingsphase nicht signifikant über das hinaus explorieren, was sie bereits aus der Vor-Trainingsphase wissen, sei die Entdeckung neuer Techniken von entscheidender Bedeutung für Fortschritte in der Schlussfolgerungsfähigkeit von Sprachmodellen. Erste Ideen gäbe es bereits, beispielsweise Methoden wie Tree of Thoughts, XOT oder der Verknüpfung von Sprachmodellen mit evolutionären Algorithmen. Auch OpenAI untersucht auch solche Methoden wohl mit Q*.