Inhalt
summary Zusammenfassung

Forscher von Hugging Face zeigen, wie sich die Leistung von Open-Source-Sprachmodellen durch intelligente Skalierung der Rechenleistung bei der Inferenz deutlich steigern lässt - inspiriert durch das o1-Modell von OpenAI. Dazu kombinieren sie verschiedene Suchstrategien mit Belohnungsmodellen.

Anzeige

Die Skalierung von Rechenressourcen während des Trainings hat in den letzten Jahren wesentlich zur Entwicklung großer Sprachmodelle (LLMs) beigetragen. Die dafür benötigten Ressourcen werden jedoch zunehmend unerschwinglich, sodass alternative Ansätze in den Fokus rücken. Laut den Forschern von Hugging Face bietet die Skalierung der Rechenleistung während der Inferenz eine vielversprechende Lösung, indem dynamische Inferenzstrategien verwendet werden, die es den Modellen ermöglichen, länger über komplexe Aufgaben nachzudenken.

Während die Idee des "test-time compute scaling" nicht neu ist und z.B. ein wesentlicher Grund für die starke Leistung von KI-Systemen wie AlphaZero ist, hat OpenAIs o1 erstmals eindrucksvoll gezeigt, dass auch die Leistung von Sprachmodellen durch längeres "Nachdenken" über schwierige Aufgaben deutlich verbessert werden kann. Bei der konkreten Umsetzung gibt es allerdings mehrere mögliche Ansätze - und welcher davon von OpenAI verwendet wird, ist noch nicht bekannt.

Von einfachen zu komplexen Suchstrategien

Die Wissenschaftler untersuchten drei zentrale suchbasierte Ansätze: Die "Best-of-N"-Methode generiert mehrere Lösungsvorschläge und wählt den besten aus. Beam Search untersucht den Lösungsraum systematisch mit Hilfe eines Process Reward Models (PRM). Die neu entwickelte "Diverse Verifier Tree Search" (DVTS) optimiert zusätzlich die Vielfalt der gefundenen Lösungen.

Anzeige
Anzeige

Die Ergebnisse der Praxistests sind beeindruckend: Ein Llama-Modell mit nur einer Milliarde Parametern erreichte die Leistung eines achtmal größeren Modells. Bei mathematischen Aufgaben erzielte es eine Genauigkeit von fast 55 Prozent - laut Hugging Face nahe an der durchschnittlichen Leistung von Informatik-Doktoranden.

Bild: Hugging Face

Ein 3-Milliarden-Parameter-Modell übertraf sogar die Leistung des 22-mal größeren 70-Milliarden-Parameter-Modells Llama 3.1 dank der vom Team vorgeschlagenen optimierten Berechnungsmethoden, die für jedes Rechenbudget die jeweils beste Suchstrategie auswählen.

Bild: Hugging Face

In beiden Fällen verglich das Team die Ergebnisse der kleineren Modelle mit den Inferenzmethoden mit denen der größeren Modelle ohne diese Methoden.

Verifier spielen eine Schlüsselrolle

Eine zentrale Rolle in all diesen Ansätzen spielen sogenannte Verifier oder Belohnungsmodelle. Sie bewerten die Qualität der generierten Lösungen und lenken die Suche auf vielversprechende Kandidaten. Benchmarks wie ProcessBench zeigen laut dem Team jedoch, dass aktuelle Verifier noch Schwächen aufweisen, insbesondere in Bezug auf Robustheit und Generalisierbarkeit.

Die Verbesserung der Verifier ist daher ein wichtiger Ansatzpunkt für zukünftige Forschung, die Königsdisziplin ist jedoch ein Modell, das seine eigenen Ausgaben autonom verifizieren kann - wie es laut dem Team OpenAIs o1 zu tun scheint.

Empfehlung

Mehr Informationen, sowie einige der verwendeten Tools, gibt es auf Hugging Face.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Hugging Face zeigen, dass sich die Leistung von Open-Source-Sprachmodellen durch intelligente Skalierung der Rechenleistung bei der Inferenz deutlich steigern lässt, inspiriert durch OpenAIs o1-Modell. Dabei werden verschiedene Suchstrategien mit Belohnungsmodellen kombiniert.
  • In Praxistests erreichte ein Llama-Modell mit nur einer Milliarde Parametern die Leistung eines achtmal größeren Modells. Ein 3-Milliarden-Parameter-Modell übertraf sogar die Leistung des 22-mal größeren 70-Milliarden-Parameter-Modells Llama 3.1 durch optimierte Berechnungsmethoden.
  • Sogenannte Verifier oder Belohnungsmodelle spielen eine zentrale Rolle, indem sie die Qualität der generierten Lösungen bewerten und die Suche lenken. Ihre Verbesserung ist ein wichtiger Ansatzpunkt für zukünftige Forschung, mit dem Ziel eines Modells, das seine eigenen Ausgaben autonom verifizieren kann.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!