"More Agents Is All You Need": Tencent-Forscher verbessern Sprachmodelle

DALL-E 3 prompted by THE DECODER

Die Leistung von Sprachmodellen kann erheblich verbessert werden, indem man einfach die Anzahl der Agenten erhöht, wie eine neue Arbeit zeigt.

Das Forscherteam von Tencent untersucht in seiner Arbeit mit dem scherzhaften Titel "More Agents Is All You Need", wie sich mehr Agenten auf eine Aufgabe auswirken. Der Titel ist eine Hommage an das ursprüngliche Transformer-Paper "Attention Is All You Need".

Die Forscher führen eine "Sampling-and-Voting"-Methode ein, bei der die Eingabeaufgabe mehrmals in ein Sprachmodell oder ein Kooperations-Framework mit mehreren Sprachmodell-Agenten eingegeben wird, um eine Reihe von Ergebnissen zu erzeugen. Diese Ergebnisse werden dann einer Mehrheitsabstimmung unterzogen, um das zuverlässigste Ergebnis zu ermitteln. Diese Methode, die sich nicht auf komplexere Methoden wie Chain-of-Thought-Prompting stützt, scheint den Ergebnissen zufolge ein effektives Werkzeug zu sein, das bestehende Methoden verbessern könnte.

Mehr Agenten bringen Llama2-13B auf Niveau von Llama2-70B

Ihre Experimente mit verschiedenen Datensätzen und Aufgaben zeigen, dass die Leistung der Sprachmodelle mit der Größe des Ensembles, d.h. mit der Anzahl der Agenten, zunimmt. Das Team zeigt auch, dass selbst kleinere LLMs die Leistung ihrer größeren Pendants erreichen oder sogar übertreffen können, indem sie einfach die Anzahl der Agenten skalieren - ohne zusätzliche aufwändige Prompt-Designs oder komplexe Kollaborations-Frameworks. Beispielsweise erreichte das Modell Llama2-13B nach Anwendung der Methode auf den GSM8K-Datensatz eine Genauigkeit von 59 % und übertraf damit das Modell Llama2-70B, das eine Genauigkeit von 54 % erreichte.

Die Studie zeigt aber auch die Grenzen dieser Methode auf. Mit zunehmender Aufgabenschwierigkeit steigen die Leistungsgewinne zunächst an, nehmen dann aber wieder ab. Dies deutet darauf hin, dass es eine Komplexitätsschwelle gibt, ab der das einfache Hinzufügen weiterer Agenten keine weiteren Verbesserungen mehr bringt. Darüber hinaus steigt die Leistung mit der Vorwahrscheinlichkeit der richtigen Antwort, d.h. ein Modell, das bestimmte Fähigkeiten nicht besitzt, erreicht diese nicht durch einfaches Skalieren der Agenten. Wenn jedoch die richtigen Voraussetzungen gegeben sind, steigt die Leistung mit der Anzahl der Argumentationsschritte und natürlich die Kosten.

"Sampling-and-Voting" lässt sich mit weiteren Methoden kombinieren

"More Agents" ist also keine Patentlösung - aber sie hilft nachweisbar. Die Methode ist auch unabhängig von bestehenden Optimierungsmethoden wie Chain-of-Thought-Prompting und kann also mit diesen für weitere Verbesserungen kombiniert werden.

Basierend auf diesen Erkenntnissen haben die Forscher Optimierungsstrategien vorgeschlagen, mit denen die Leistung zusätzlicher Agenten noch besser genutzt werden kann. Dazu gehören ein schrittweises Sampling und Voting für Aufgaben, die mehrere Argumentationsschritte erfordern, und ein hierarchischer Ansatz für Aufgaben mit geringen Vorwahrscheinlichkeiten, bei dem beispielsweise verschiedene Modelle für Teilaufgaben mit unterschiedlichem Schwierigkeitsgrad verwendet werden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

"More Agents Is All You Need": Tencent-Forscher verbessern Sprachmodelle

Mehr Agenten bringen Llama2-13B auf Niveau von Llama2-70B

"Sampling-and-Voting" lässt sich mit weiteren Methoden kombinieren

Meta bietet Apple-KI-Spitzenkraft Gehaltspaket über mehr als 200 Millionen US-Dollar

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Schon wieder Signal: Unbekannte imitieren mit KI-Stimme US-Außenminister Rubio in Chats

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

"More Agents Is All You Need": Tencent-Forscher verbessern Sprachmodelle

Mehr Agenten bringen Llama2-13B auf Niveau von Llama2-70B

"Sampling-and-Voting" lässt sich mit weiteren Methoden kombinieren

Meta bietet Apple-KI-Spitzenkraft Gehaltspaket über mehr als 200 Millionen US-Dollar

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Schon wieder Signal: Unbekannte imitieren mit KI-Stimme US-Außenminister Rubio in Chats