Nvidia veröffentlicht kostenlose Sprachmodelle optimiert für die Datengenerierung

Nvidia stellt mit Nemotron-4 340B eine Open-Source-Pipeline für die Generierung synthetischer Daten zur Verfügung. Das Sprachmodell soll Entwicklern helfen, qualitativ hochwertige Datensätze für das Training und Fine-Tuning großer Sprachmodelle (LLMs) für kommerzielle Anwendungen zu erstellen.

Die Nemotron-4 340B-Familie besteht aus einem Basismodell, einem Instruktions- und einem Belohnungsmodell, die zusammen eine Pipeline zur Erzeugung synthetischer Daten bilden. Diese Daten können für das Training und die Verfeinerung von LLMs verwendet werden. Das Basismodell von Nemotron wurde mit 9 Billionen Token trainiert.

Synthetische Daten zeichnen sich dadurch aus, dass sie die Eigenschaften realer Daten imitieren und somit die Datenqualität und -quantität verbessern können. Das ist besonders wichtig, wenn der Zugang zu großen, vielfältigen und annotierten Datensätzen begrenzt ist.

Laut Nvidia erzeugt das Nemotron-4 340B Instruct-Modell vielfältige synthetische Daten, die die Leistung und Robustheit maßgeschneiderter LLMs in verschiedenen Anwendungsbereichen wie Gesundheitswesen, Finanzwesen, Fertigung und Einzelhandel verbessern können.

Mit dem Nemotron-4 340B Reward-Modell kann die Qualität der von der KI generierten Daten weiter verbessert werden, indem qualitativ hochwertige Antworten herausgefiltert werden.

Nemotron-4 340B Instruct erzeugt zunächst domänenspezifische, synthetische Trainingstexte. Das zweite Modell, Nemotron-4 340B Reward, bewertet dann diese generierten Texte und gibt Rückmeldungen, um die Texte schrittweise zu verbessern. Durch das Zusammenspiel der beiden Modelle entstehen also allmählich hochwertigere Trainingsdaten. | Bild: Nvidia

98 Prozent der für die Feinabstimmung der für das Instruct-Modell verwendeten Trainingsdaten sind synthetisch und wurden mit der Pipeline von Nvidia erstellt.

In Benchmarks wie MT-Bench, MMLU, GSM8K, HumanEval und IFEval schneidet das Instruct-Modell in der Regel besser ab als andere Open-Source-Modelle wie Llama-3-70B-Instruct, Mixtral-8x22B-Instruct-v0.1 und Qwen-2-72B-Instruct und in einigen Tests sogar besser als GPT-4o.

Die drei Nemo-Modelle spielen in der Open-Modell-Oberliga. | Bild: Nvidia

Es ist auch vergleichbar oder besser als GPT-4-1106 von OpenAI bei der menschlichen Bewertung für verschiedene Textaufgaben wie Zusammenfassungen und Brainstormings. Detaillierte Benchmarks sind im technischen Report verfügbar.

In Textaufgaben-Benchmarks mit GPT-4 1106 liegt das Nemotron-340B-Instruct-Modell auf Augenhöhe. | Bild: Nvidia

Die Modelle sind für die Inferenz mit dem Open-Source-Framework NVIDIA NeMo und der NVIDIA TensorRT-LLM-Bibliothek optimiert. Nvidia stellt sie unter der Open-Model-Lizenz zur Verfügung, die auch den kommerziellen Einsatz freigibt. Alle Daten sind bei Huggingface verfügbar.

Empfehlung

KI in der Praxis

OpenAI macht bei GPT-5 eine Rolle rückwärts

Interessant ist der strategische Ansatz von Nvidia: Anstatt Nemotron als Konkurrenz zu Llama 3 oder gar GPT-4 zu positionieren, bietet man die Modellfamilie als Datengenerator an, damit andere Entwickler bessere oder mehr Modelle in verschiedenen Domänen trainieren können. Mehr Training und mehr Modelle auf dem Markt bedeuten eine höhere Nachfrage nach GPUs.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Nvidia veröffentlicht kostenlose Sprachmodelle optimiert für die Datengenerierung

OpenAI macht bei GPT-5 eine Rolle rückwärts

Nvidia treibt mit neuer Blackwell-Hardware und KI-Modellen die "Physische KI" voran

Trump-Regierung verlangt Umsatzbeteiligung für KI-Chip-Exporte nach China

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Nvidia veröffentlicht kostenlose Sprachmodelle optimiert für die Datengenerierung

Artikel teilen

Bankverbindung