Inhalt
summary Zusammenfassung

Nvidia stellt mit Nemotron-4 340B eine Open-Source-Pipeline für die Generierung synthetischer Daten zur Verfügung. Das Sprachmodell soll Entwicklern helfen, qualitativ hochwertige Datensätze für das Training und Fine-Tuning großer Sprachmodelle (LLMs) für kommerzielle Anwendungen zu erstellen.

Anzeige

Die Nemotron-4 340B-Familie besteht aus einem Basismodell, einem Instruktions- und einem Belohnungsmodell, die zusammen eine Pipeline zur Erzeugung synthetischer Daten bilden. Diese Daten können für das Training und die Verfeinerung von LLMs verwendet werden. Das Basismodell von Nemotron wurde mit 9 Billionen Token trainiert.

Synthetische Daten zeichnen sich dadurch aus, dass sie die Eigenschaften realer Daten imitieren und somit die Datenqualität und -quantität verbessern können. Das ist besonders wichtig, wenn der Zugang zu großen, vielfältigen und annotierten Datensätzen begrenzt ist.

Laut Nvidia erzeugt das Nemotron-4 340B Instruct-Modell vielfältige synthetische Daten, die die Leistung und Robustheit maßgeschneiderter LLMs in verschiedenen Anwendungsbereichen wie Gesundheitswesen, Finanzwesen, Fertigung und Einzelhandel verbessern können.

Anzeige
Anzeige

Mit dem Nemotron-4 340B Reward-Modell kann die Qualität der von der KI generierten Daten weiter verbessert werden, indem qualitativ hochwertige Antworten herausgefiltert werden.

Nemotron-4 340B Instruct erzeugt zunächst domänenspezifische, synthetische Trainingstexte. Das zweite Modell, Nemotron-4 340B Reward, bewertet dann diese generierten Texte und gibt Rückmeldungen, um die Texte schrittweise zu verbessern. Durch das Zusammenspiel der beiden Modelle entstehen also allmählich hochwertigere Trainingsdaten. | Bild: Nvidia

98 Prozent der für die Feinabstimmung der für das Instruct-Modell verwendeten Trainingsdaten sind synthetisch und wurden mit der Pipeline von Nvidia erstellt.

In Benchmarks wie MT-Bench, MMLU, GSM8K, HumanEval und IFEval schneidet das Instruct-Modell in der Regel besser ab als andere Open-Source-Modelle wie Llama-3-70B-Instruct, Mixtral-8x22B-Instruct-v0.1 und Qwen-2-72B-Instruct und in einigen Tests sogar besser als GPT-4o.

Die drei Nemo-Modelle spielen in der Open-Modell-Oberliga. | Bild: Nvidia

Es ist auch vergleichbar oder besser als GPT-4-1106 von OpenAI bei der menschlichen Bewertung für verschiedene Textaufgaben wie Zusammenfassungen und Brainstormings. Detaillierte Benchmarks sind im technischen Report verfügbar.

In Textaufgaben-Benchmarks mit GPT-4 1106 liegt das Nemotron-340B-Instruct-Modell auf Augenhöhe. | Bild: Nvidia

Die Modelle sind für die Inferenz mit dem Open-Source-Framework NVIDIA NeMo und der NVIDIA TensorRT-LLM-Bibliothek optimiert. Nvidia stellt sie unter der Open-Model-Lizenz zur Verfügung, die auch den kommerziellen Einsatz freigibt. Alle Daten sind bei Huggingface verfügbar.

Empfehlung

Interessant ist der strategische Ansatz von Nvidia: Anstatt Nemotron als Konkurrenz zu Llama 3 oder gar GPT-4 zu positionieren, bietet man die Modellfamilie als Datengenerator an, damit andere Entwickler bessere oder mehr Modelle in verschiedenen Domänen trainieren können. Mehr Training und mehr Modelle auf dem Markt bedeuten eine höhere Nachfrage nach GPUs.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia stellt mit Nemotron-4 340B eine kostenlose Pipeline zur Verfügung, die qualitativ hochwertige synthetische Daten für das Training und Fine-Tuning von großen Sprachmodellen (LLMs) für kommerzielle Anwendungen erzeugt.
  • Die Nemotron-4 340B-Familie besteht aus einem auf 9 Billionen Token trainierten Basismodell, einem Instruktionsmodell zur Generierung vielfältiger synthetischer Daten und einem Belohnungsmodell zur Filterung hochwertiger Antworten.
  • In Benchmarks schneidet das Instruktionsmodell meist besser ab als andere Open-Source-Modelle und teilweise sogar besser als GPT-4. Nvidia stellt die Modelle unter Open-Model-Lizenz auch für kommerzielle Nutzung zur Verfügung.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!