KI-Forschungsinstitut AI2 stellt leistungsstarkes 405-Milliarden-Parameter-Modell Tülu 3 vor

Das Allen Institute for AI hat mit Tülu 3 405B ein Open-Source-Sprachmodell vorgestellt, das laut eigenen Angaben die Performance von DeepSeek V3 und GPT-4o übertrifft. Eine neue Trainingsmethode namens RLVR soll dabei besonders zur Verbesserung beigetragen haben.

Laut dem Team konnte das neue Sprachmodell Tülu 3 405B in mehreren Standard-Benchmarks die Performance von DeepSeek V3 und GPT-4o erreichen oder übertreffen. Das Modell basiert auf Llama 3.1 und wurde mit einer neuartigen Trainingsmethode namens "Reinforcement Learning with Verifiable Rewards" (RLVR) optimiert.

Bei RLVR handelt es sich um einen Reinforcement-Learning-Ansatz, bei dem das Modell nur dann eine Belohnung erhält, wenn seine generierten Antworten nachweislich korrekt sind. Laut AI2 funktioniert das besonders gut bei mathematischen Aufgaben, wo sich Ergebnisse leicht überprüfen lassen.

Massive technische Herausforderungen beim Training

Das Training des 405-Milliarden-Parameter-Modells erforderte laut AI2 enorme Rechenkapazitäten: 32 Compute-Knoten mit insgesamt 256 GPUs mussten parallel arbeiten. Ein einzelner Trainingsschritt dauerte dabei 35 Minuten.

Um den immensen Rechenaufwand in Grenzen zu halten, mussten die Wissenschaftler einige Tricks anwenden. So wurde für einige Berechnungen ein kleineres Hilfsmodell verwendet. Trotzdem traten immer wieder technische Probleme auf, die eine ständige Überwachung erforderten. Der Bericht über diese Probleme und Lösungen macht Tülu besonders wertvoll, denn nur in wenigen Fällen geben Unternehmen Einblick in dieses Wissen.

Deutliche Performance-Verbesserungen nachgewiesen

In den Benchmark-Tests erzielte Tülu 3 405B laut AI2 bessere Ergebnisse als frühere Open-Source-Modelle wie Llama 3.1 405B Instruct und Nous Hermes 3 405B. Die Forscher betonen, dass das Training aufgrund von Compute-Beschränkungen vorzeitig beendet werden musste und weitere Verbesserungen möglich gewesen wären.

Kürzlich hat das Team auch die technischen Details des Trainings in einem wissenschaftlichen Artikel veröffentlicht. Darin wird das Training als mehrstufiger Prozess beschrieben, der neben RLVR auch Supervised Finetuning (SFT) und Direct Preference Optimization (DPO) umfasst. Die Wissenschaftler sehen in der Kombination dieser Methoden den Schlüssel zum Erfolg des Modells und sehen auch einige Parallelen zu den Erkenntnissen von Deepseek aus dem Training von R1, etwa dass RL bei größeren Modellen stärkere Leistungssprünge ermöglicht.

Das Modell kann im Playground von AI2 ausprobiert werden. Den Code gibt es auf GitHub, die Modelle auf Hugging Face.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI-Forschungsinstitut AI2 stellt leistungsstarkes 405-Milliarden-Parameter-Modell Tülu 3 vor

Massive technische Herausforderungen beim Training

Deutliche Performance-Verbesserungen nachgewiesen

Metas All-Star-KI-Team: Milliardeninvestition mit unklarem Ausgang

Alibaba veröffentlicht Wan2.2: Neues KI-Modell erzeugt 720P-Videos auf Consumer-GPU

Kein Platz für Halluzinationen: KI-Start-up will korrekte Mathebeweise garantieren

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

KI-Forschungsinstitut AI2 stellt leistungsstarkes 405-Milliarden-Parameter-Modell Tülu 3 vor

Massive technische Herausforderungen beim Training

Deutliche Performance-Verbesserungen nachgewiesen

Metas All-Star-KI-Team: Milliardeninvestition mit unklarem Ausgang

Alibaba veröffentlicht Wan2.2: Neues KI-Modell erzeugt 720P-Videos auf Consumer-GPU

Kein Platz für Halluzinationen: KI-Start-up will korrekte Mathebeweise garantieren