Inhalt
summary Zusammenfassung

Das Allen Institute for AI hat mit Tülu 3 405B ein Open-Source-Sprachmodell vorgestellt, das laut eigenen Angaben die Performance von DeepSeek V3 und GPT-4o übertrifft. Eine neue Trainingsmethode namens RLVR soll dabei besonders zur Verbesserung beigetragen haben.

Anzeige

Laut dem Team konnte das neue Sprachmodell Tülu 3 405B in mehreren Standard-Benchmarks die Performance von DeepSeek V3 und GPT-4o erreichen oder übertreffen. Das Modell basiert auf Llama 3.1 und wurde mit einer neuartigen Trainingsmethode namens "Reinforcement Learning with Verifiable Rewards" (RLVR) optimiert.

Bei RLVR handelt es sich um einen Reinforcement-Learning-Ansatz, bei dem das Modell nur dann eine Belohnung erhält, wenn seine generierten Antworten nachweislich korrekt sind. Laut AI2 funktioniert das besonders gut bei mathematischen Aufgaben, wo sich Ergebnisse leicht überprüfen lassen.

Bild: Allen AI

Massive technische Herausforderungen beim Training

Das Training des 405-Milliarden-Parameter-Modells erforderte laut AI2 enorme Rechenkapazitäten: 32 Compute-Knoten mit insgesamt 256 GPUs mussten parallel arbeiten. Ein einzelner Trainingsschritt dauerte dabei 35 Minuten.

Anzeige
Anzeige

Um den immensen Rechenaufwand in Grenzen zu halten, mussten die Wissenschaftler einige Tricks anwenden. So wurde für einige Berechnungen ein kleineres Hilfsmodell verwendet. Trotzdem traten immer wieder technische Probleme auf, die eine ständige Überwachung erforderten. Der Bericht über diese Probleme und Lösungen macht Tülu besonders wertvoll, denn nur in wenigen Fällen geben Unternehmen Einblick in dieses Wissen.

Deutliche Performance-Verbesserungen nachgewiesen

In den Benchmark-Tests erzielte Tülu 3 405B laut AI2 bessere Ergebnisse als frühere Open-Source-Modelle wie Llama 3.1 405B Instruct und Nous Hermes 3 405B. Die Forscher betonen, dass das Training aufgrund von Compute-Beschränkungen vorzeitig beendet werden musste und weitere Verbesserungen möglich gewesen wären.

Kürzlich hat das Team auch die technischen Details des Trainings in einem wissenschaftlichen Artikel veröffentlicht. Darin wird das Training als mehrstufiger Prozess beschrieben, der neben RLVR auch Supervised Finetuning (SFT) und Direct Preference Optimization (DPO) umfasst. Die Wissenschaftler sehen in der Kombination dieser Methoden den Schlüssel zum Erfolg des Modells und sehen auch einige Parallelen zu den Erkenntnissen von Deepseek aus dem Training von R1, etwa dass RL bei größeren Modellen stärkere Leistungssprünge ermöglicht.

Das Modell kann im Playground von AI2 ausprobiert werden. Den Code gibt es auf GitHub, die Modelle auf Hugging Face.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Allen Institute for AI hat mit Tülu 3 405B ein Open-Source-Sprachmodell vorgestellt, das in Standard-Benchmarks die Performance von DeepSeek V3 und GPT-4o erreicht oder übertrifft. Eine neue Trainingsmethode namens RLVR, bei der das Modell nur für nachweislich korrekte Antworten belohnt wird, soll maßgeblich zur Verbesserung beigetragen haben.
  • Das Training des 405-Milliarden-Parameter-Modells erforderte enorme Rechenkapazitäten von 32 Compute-Knoten mit insgesamt 256 GPUs. Trotz einiger Tricks, wie der Verwendung eines kleineren Hilfsmodells für bestimmte Berechnungen, traten immer wieder technische Probleme auf, die eine ständige Überwachung nötig machten.
  • In einem wissenschaftlichen Artikel beschreiben die Forscher das Training als mehrstufigen Prozess, der neben RLVR auch Supervised Finetuning (SFT) und Direct Preference Optimization (DPO) umfasst. Die Kombination dieser Methoden wird als Schlüssel zum Erfolg des Modells gesehen, das im Playground von AI2 ausprobiert werden kann.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!