Inhalt
summary Zusammenfassung

Das neue Sprachmodell von Nvidia setzt sich in Alignment-Benchmarks an die Spitze. Möglich macht dies ein spezielles Trainingsverfahren, das Bewertungs- und Präferenzmodelle kombiniert.

Anzeige

Nvidia hat mit Llama-3.1-Nemotron-70B-Instruct ein neues großes Sprachmodell auf Basis von Metas Open-Source-Modell Llama 3.1 vorgestellt, das darauf optimiert wurde, hilfreiche Antworten auf Nutzeranfragen zu geben. Das Besondere daran ist die Kombination verschiedener Trainingsmethoden.

Die Ergebnisse zeigen jedoch nur, dass die Antworten eher menschlichen Vorlieben entsprechen, nicht aber, dass die Antworten inhaltlich besser sind, wie ein Blick ins Ranking des MMLU-Pro-Benchmarks zeigt. Dort schneidet die Nemotron-Variante sogar leicht schlechter ab als das Grundmodell.

Grundlage für das Training waren zwei von Nvidia erstellte Datensätze: HelpSteer2 und HelpSteer2-Preference. HelpSteer2 enthält über 20.000 Prompt-Antwort-Paare, bei denen jede Antwort von mehreren Annotatoren auf einer Skala von 1 bis 5 hinsichtlich Kriterien wie Hilfsbereitschaft, Korrektheit und Kohärenz bewertet wurde.

Anzeige
Anzeige

HelpSteer2-Preference ergänzt dies um Vergleiche zwischen jeweils zwei Antworten auf denselben Prompt. Die Annotator:innen gaben an, welche Antwort sie bevorzugen und wie stark diese Präferenz ist.

Kombination zweier Belohnungsmodelle

Nvidia nutzte diese Daten, um zwei Arten von Belohnungsmodellen zu trainieren: Regressions- und Bradley-Terry-Modelle. Regressionsmodelle wie SteerLM lernen, den einzelnen Antworten Werte für die verschiedenen Kriterien zuzuordnen. Bradley-Terry-Modelle hingegen lernen aus den Präferenzvergleichen, den Belohnungsunterschied zwischen zwei Antworten zu maximieren.

Die Forscher fanden heraus, dass eine Kombination beider Ansätze die besten Ergebnisse liefert. Dazu trainierten sie zunächst ein SteerLM-Regressionsmodell nur anhand der Hilfsbereitschafts-Bewertungen. Dieses Modell diente dann als Ausgangspunkt für ein skaliertes Bradley-Terry-Modell, das zusätzlich die Stärke der Präferenzen zwischen den Antworten berücksichtigt. Durch eine Extrapolation der gelernten Gewichte (ExPO) konnte die Leistung weiter gesteigert werden.

Zur Feinabstimmung des Sprachmodells auf die gelernten Belohnungen setzte Nvidia auf den Algorithmus REINFORCE. Im Gegensatz zu dem häufig verwendeten PPO (Proximal Policy Optimization) schätzt REINFORCE den Wert einer Aktion stabiler und unvoreingenommener.

Verbesserung der Hilfsbereitschaft und längere Antworten

Dies führte in Kombination mit dem trainierten Belohnungsmodell zu einer deutlichen Verbesserung der Ergebnisse bei Benchmarks, die die Hilfsbereitschaft der Antworten messen. Auch die Länge lag mit durchschnittlich 2200 Zeichen pro Antwort gut 400 Zeichen über der anderer Modelle.

Empfehlung
Tabelle mit Leistungsmetriken für verschiedene KI-Modelle, REINFORCE zeigt höchste Werte in MT Bench und AlpacaEval.
Das REINFORCE-Modell sticht mit besonders hohen Werten in Benchmarks hervor, die die Nützlichkeit der Antworten bewerten.

Das finale Modell Llama-3.1-Nemotron-70B-Instruct erreicht in den Benchmarks Arena Hard, AlpacaEval 2 LC und GPT-4-Turbo MT-Bench jeweils den ersten Platz. Es übertrifft damit Spitzenmodelle wie GPT-4o und Claude 3.5 Sonnet. In Arena Hard erzielt es einen Wert von 85.0 und liegt damit deutlich vor dem Ausgangsmodell Llama-3.1-70B-Instruct mit 55.7.

Nemotron besteht Erdbeeren-Test

Die Verbesserungen zeigen sich auch in konkreten Anwendungen. So kann Llama-3.1-Nemotron-70B-Instruct etwa die Frage "How many r in strawberry?" korrekt beantworten, indem es die Buchstaben einzeln durchgeht und die "R" zählt. Das Ausgangsmodell sowie kommerzielle Konkurrenten hingegen gäben oft eine falsche Antwort.

Tabelle vergleicht Antworten verschiedener KI-Modelle auf die Frage "How many r in strawberry?", REINFORCE-Modell gibt detaillierteste Antwort.
Diese Vergleichstabelle offenbart die Leistungsfähigkeit verschiedener KI-Modelle bei der Beantwortung einer scheinbar einfachen Frage. Nur das REINFORCE-Modell zeigt ein tieferes Verständnis der Aufgabe.

Nvidia betont, dass das neue Modell die Techniken des Unternehmens zur Verbesserung der Hilfsbereitschaft in allgemeinen Anwendungsbereichen demonstriert. Für spezialisierte Domänen wie Mathematik wurde es jedoch nicht optimiert. Im Juni hatte Nvidia Nemotron-Sprachmodelle zur Datengenerierung veröffentlicht.

Llama-3.1-Nemotron-70B-Instruct könnt ihr kostenlos im HuggingChat oder bei Nvidia ausprobieren.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia hat ein neues großes Sprachmodell namens Llama-3.1-Nemotron-70B-Instruct vorgestellt, das darauf optimiert wurde, hilfreiche Antworten auf Nutzeranfragen zu geben. Dazu kombiniert es verschiedene Trainingsmethoden wie Regressions- und Bradley-Terry-Modelle.
  • Zur Erstellung der Trainingsdaten nutzte Nvidia zwei selbst erstellte Datensätze: HelpSteer2 mit über 20.000 bewerteten Prompt-Antwort-Paaren und HelpSteer2-Preference mit Vergleichen zwischen jeweils zwei Antworten auf denselben Prompt. Die Kombination beider Ansätze lieferte die besten Ergebnisse.
  • In Alignment-Benchmarks wie Arena Hard, AlpacaEval 2 LC und GPT-4-Turbo MT-Bench erreicht Llama-3.1-Nemotron-70B-Instruct jeweils den ersten Platz und übertrifft damit Spitzenmodelle wie GPT-4o und Claude 3.5 Sonnet. Das Modell ist kostenlos im HuggingChat oder bei Nvidia verfügbar.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!