Inhalt
summary Zusammenfassung

Forschende haben einen ressourcensparenden Ansatz entwickelt, um KI-Modelle mit sorgfältig ausgewählten Trainingsdaten und einer flexiblen Steuerung der Rechenzeit fit für anspruchsvolle Schlussfolgerungen zu machen.

Anzeige

Aus einem Pool von fast 60.000 Frage-Antwort-Paaren wählten die Wissenschaftler:innen 1.000 Frage- und Antwortpaare inklusive der mit Gemini 2.0 Flash Thinking generierten Denkschritte aus, die drei Kriterien erfüllten: Sie sollten anspruchsvoll sein, aus möglichst verschiedenen Bereichen stammen und eine hohe Qualität aufweisen, etwa in Bezug auf Verständlichkeit und Formatierung.

Streudiagramm: MATH500-Genauigkeit verschiedener KI-Modelle gegen Anzahl der Trainingsbeispiele, s1-Modell führend in Effizienz.
Trotz nur einem Bruchteil der Beispiele anderer Modelle zeigt s1-32B sehr gute Leistung in einem Mathematik-Benchmark. | Bild: Muennighoff et al.

Mit diesem kompakten, aber hochwertigen Datensatz trainierten die unter anderem bei der Stanford University und dem Allen Institute for AI beschäftigten Forschenden ein Sprachmodell mittlerer Größe auf Basis von Qwen2.5 mit 32 Milliarden Parametern namens s1-32B.

"Budget Forcing" verlängert Denkprozess

Das Modell lernte anhand von Musterlösungen, welche Zwischenschritte und Erklärungen zu einer korrekten Antwort führen. Dank der fokussierten Datenauswahl waren dafür lediglich 26 Minuten Rechenzeit auf 16 Nvidia-H100-GPUs nötig, was rund 25 GPU-Stunden entspricht. Genaue Angaben zu ähnlichen Modellen wie OpenAI o1 oder DeepSeek-R1 sind nicht bekannt, liegen aber vermutlich mindestens im vierstelligen Bereich.

Anzeige
Anzeige

Die zweite Komponente ist eine Methode zur Steuerung des Denkprozesses bei der Inferenz namens Budget Forcing. Wenn das Modell ein vorgegebenes Budget an Rechenschritten überschreitet, wird die Berechnung abgebrochen und das Modell muss eine Antwort geben. Benötigt das Modell dagegen mehr Zeit, wird es durch die Einfügung des Wortes "Wait" veranlasst, seine bisherige Antwort zu hinterfragen und nach Fehlern in der Argumentation zu suchen.

Beispiel für Budget Forcing: KI-Modell zählt 'r' in
Budget Forcing als effektive Interventionsstrategie: Durch das Einfügen von "Wait" wird der Denkprozess des Modells verlängert, was zu einer Selbstkorrektur von 2 auf 3 'r' führt. | Bild: Muennighoff et al.

Das Budget Forcing ermöglicht eine bedarfsgerechte Steuerung der "Gründlichkeit" des Modells. In Experimenten führte ein höheres Budget, erzwungen durch ein häufigeres Einfügen von "Wait" in die Ausgabe, zu deutlich besseren Ergebnissen. So übertraf das trainierte Modell in Benchmarks zur Mathematik sogar die Leistung von OpenAIs deutlich datenintensiveren o1-preview und o1-mini.

Leistungsvergleichstabelle verschiedener KI-Modelle mit Metriken für AIME-2024, MATH-500 und GPQA Diamond, unterteilt in API-only und Open-Source-Varianten.
Im Vergleich zu anderen geschlossenen und offenen Sprachmodellen zeigt s1-32B vor allem im Bereich Mathematik seine Stärken.

Qualität schlägt Quantität

In weiteren Experimenten zeigte das Team, dass nur die Kombination aller drei Kriterien bei der Datenauswahl - Schwierigkeit, Vielfalt und Qualität - die volle Leistung bringt. Beschränkungen auf einzelne Kriterien oder eine zufällige Auswahl führten zu bis zu 30 Prozent schlechteren Ergebnissen.

Überraschenderweise brachte selbst der 59-fach größere Gesamtdatensatz keine Verbesserung gegenüber den sorgfältig ausgewählten 1.000 Beispielen. Deutlich wichtiger ist dagegen die Budgetkontrolle: Sie ermöglicht eine genaue Kontrolle der Rechenzeit und führt zu einem klaren Zusammenhang zwischen investierter Zeit und Leistung.

Streudiagramm: Korrelation zwischen durchschnittlicher Denkzeit (Tokens) und Genauigkeit bei mathematischen Wettbewerbsaufgaben, steigende Tendenz.
Die Verlängerung der Denkzeit durch das Einfügen von "Wait"-Befehlen führt zu einer deutlichen Verbesserung der mathematischen Problemlösungsfähigkeit. | Bild: Muennighoff et al.

Die Studie demonstriert, dass bereits ein relativ kleiner, aber hochwertiger Trainingsdatensatz ausreicht, um Sprachmodelle auf anspruchsvolle Denkaufgaben vorzubereiten. In Kombination mit dem flexiblen Test-Time Compute können sie dann je nach Bedarf gründlicher arbeiten, ohne dass die Modellgröße angepasst werden muss.

Empfehlung

Generell zeigt s1-32B einen spannenden Ansatz in Kombination mit dem Budget Forcing. Die Aussagekraft der Benchmarkergebnisse halten sich jedoch in Grenzen, weil sie nur einen eng abgesteckten Kompetenzbereich beleuchten.

Die Forschenden haben ihren Code und die Trainingsdaten auf GitHub veröffentlicht, um die Weiterentwicklung der Methode zu fördern.

Über die letzten Jahre haben zahlreiche Forschungsgruppen versucht, mit wachsendem Aufwand und teils enormen Datenmengen die Leistung führender KI-Modelle bei komplexen Schlussfolgerungen zu erreichen. Gerade erst hat OpenAI sein neuestes Reasoningmodell o3-mini in ChatGPT implementiert.

Zuletzt hat jedoch das chinesische DeepSeek unter Beweis gestellt, dass konkurrenzfähige Modelle vor allem durch effizienten Ressourcenumgang und guten Ideen entstehen - und Budget Forcing könnte eine davon sein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben einen effizienten Ansatz entwickelt, um KI-Modelle mit nur 1.000 sorgfältig ausgewählten Trainingsbeispielen für anspruchsvolle Schlussfolgerungen zu trainieren. Die Beispiele sollten schwierig, vielfältig und qualitativ hochwertig sein.
  • Das trainierte Modell s1-32B mit 32 Milliarden Parametern benötigte nur 26 Minuten Rechenzeit auf 16 Nvidia-H100-GPUs. Eine Methode namens "Budget Forcing" ermöglicht es, die Gründlichkeit des Denkprozesses bei der Anwendung flexibel zu steuern.
  • In Experimenten übertraf s1-32B dank der fokussierten Datenauswahl und des Budget Forcings sogar die Leistung deutlich größerer Modelle wie OpenAIs o1-preview und o1-mini in Mathematik-Benchmarks. Der Ansatz zeigt, dass effiziente Ressourcennutzung und gute Ideen entscheidend für leistungsstarke KI-Modelle sind.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!