Die Leistung von Sprachmodellen kann erheblich verbessert werden, indem man einfach die Anzahl der Agenten erhöht, wie eine neue Arbeit zeigt.
Das Forscherteam von Tencent untersucht in seiner Arbeit mit dem scherzhaften Titel "More Agents Is All You Need", wie sich mehr Agenten auf eine Aufgabe auswirken. Der Titel ist eine Hommage an das ursprüngliche Transformer-Paper "Attention Is All You Need".
Die Forscher führen eine "Sampling-and-Voting"-Methode ein, bei der die Eingabeaufgabe mehrmals in ein Sprachmodell oder ein Kooperations-Framework mit mehreren Sprachmodell-Agenten eingegeben wird, um eine Reihe von Ergebnissen zu erzeugen. Diese Ergebnisse werden dann einer Mehrheitsabstimmung unterzogen, um das zuverlässigste Ergebnis zu ermitteln. Diese Methode, die sich nicht auf komplexere Methoden wie Chain-of-Thought-Prompting stützt, scheint den Ergebnissen zufolge ein effektives Werkzeug zu sein, das bestehende Methoden verbessern könnte.
Mehr Agenten bringen Llama2-13B auf Niveau von Llama2-70B
Ihre Experimente mit verschiedenen Datensätzen und Aufgaben zeigen, dass die Leistung der Sprachmodelle mit der Größe des Ensembles, d.h. mit der Anzahl der Agenten, zunimmt. Das Team zeigt auch, dass selbst kleinere LLMs die Leistung ihrer größeren Pendants erreichen oder sogar übertreffen können, indem sie einfach die Anzahl der Agenten skalieren - ohne zusätzliche aufwändige Prompt-Designs oder komplexe Kollaborations-Frameworks. Beispielsweise erreichte das Modell Llama2-13B nach Anwendung der Methode auf den GSM8K-Datensatz eine Genauigkeit von 59 % und übertraf damit das Modell Llama2-70B, das eine Genauigkeit von 54 % erreichte.
Die Studie zeigt aber auch die Grenzen dieser Methode auf. Mit zunehmender Aufgabenschwierigkeit steigen die Leistungsgewinne zunächst an, nehmen dann aber wieder ab. Dies deutet darauf hin, dass es eine Komplexitätsschwelle gibt, ab der das einfache Hinzufügen weiterer Agenten keine weiteren Verbesserungen mehr bringt. Darüber hinaus steigt die Leistung mit der Vorwahrscheinlichkeit der richtigen Antwort, d.h. ein Modell, das bestimmte Fähigkeiten nicht besitzt, erreicht diese nicht durch einfaches Skalieren der Agenten. Wenn jedoch die richtigen Voraussetzungen gegeben sind, steigt die Leistung mit der Anzahl der Argumentationsschritte und natürlich die Kosten.
"Sampling-and-Voting" lässt sich mit weiteren Methoden kombinieren
"More Agents" ist also keine Patentlösung - aber sie hilft nachweisbar. Die Methode ist auch unabhängig von bestehenden Optimierungsmethoden wie Chain-of-Thought-Prompting und kann also mit diesen für weitere Verbesserungen kombiniert werden.
Basierend auf diesen Erkenntnissen haben die Forscher Optimierungsstrategien vorgeschlagen, mit denen die Leistung zusätzlicher Agenten noch besser genutzt werden kann. Dazu gehören ein schrittweises Sampling und Voting für Aufgaben, die mehrere Argumentationsschritte erfordern, und ein hierarchischer Ansatz für Aufgaben mit geringen Vorwahrscheinlichkeiten, bei dem beispielsweise verschiedene Modelle für Teilaufgaben mit unterschiedlichem Schwierigkeitsgrad verwendet werden.