Anzeige
Skip to content

Nvidia veröffentlicht Nemotron-3 Nano Omni samt tiefem Einblick in das Training multimodaler KI

Image description
Nvidia

Kurz & Knapp

  • Nvidia veröffentlicht das offene KI-Modell Nemotron 3 Nano Omni, das Text, Bild, Video und Audio verarbeitet und auf agentische Anwendungen abzielt.
  • Das Training umfasste 717 Milliarden Tokens. Viele der synthetischen Trainingsdaten stammen von Konkurrenzmodellen wie Qwen, gpt-oss und DeepSeek OCR.
  • Nvidia stellt neben den Modellgewichten auch Teile der Trainingsdaten und Pipelines bereit. Das Modell darf kommerziell genutzt werden.

Nvidia veröffentlicht mit Nemotron 3 Nano Omni ein offenes multimodales Modell für Text, Bild, Video und Audio. Spannend ist nicht nur die Leistung, sondern auch der Blick in die Trainingsdaten: Sie stammen unter anderem aus Qwen, GPT-OSS, Kimi und DeepSeek-OCR.

Nvidia hat mit Nemotron 3 Nano Omni ein multimodales Open-Source-Modell veröffentlicht, das Text, Bilder, Video und Audio in einer einzigen Architektur verarbeitet. Das 30-Milliarden-Parameter-Modell nutzt eine Mamba-Transformer-Hybrid-Architektur mit Mixture-of-Experts und aktiviert pro Anfrage rund drei Milliarden Parameter. Als Encoder kommen der hauseigene Vision-Encoder C-RADIOv4-H und der Audio-Encoder Parakeet-TDT zum Einsatz, das Kontextfenster reicht bis 256.000 Tokens. Nvidia gibt als unterstützte Sprache allerdings offiziell nur Englisch an.

Laut dem technischen Bericht zielt Nemotron 3 Nano Omni vor allem auf agentische Anwendungen: Dokumentenverarbeitung, Computer-Use-Agenten, Video- und Audio-Analyse sowie Sprachinteraktion. Auf Benchmarks wie OCRBenchV2, MMLongBench-Doc, WorldSense und VoiceBench liegt das Modell vor dem Vorgänger Nemotron Nano V2 VL und konkurriert direkt mit Alibabas Qwen3-Omni. Bei OSWorld, einem Benchmark für GUI-Agenten, steigt die Genauigkeit gegenüber dem Vorgänger von 11,1 auf 47,4 Punkte. Nvidia gibt den Durchsatz bei gleicher Interaktivität mit bis zu neunfach höher als bei Qwen3-Omni an.

Was beim Training andere Modelle leisteten

Interessanter als die Benchmarks ist der Blick in die Trainingsdaten, wie er nur bei echten Open-Source-Releases möglich wird. Laut Nvidia wurden insgesamt rund 717 Milliarden Tokens verarbeitet, verteilt auf sieben Trainingsstufen mit progressiv wachsendem Kontextfenster.

Anzeige
DEC_D_Incontent-1

Ein erheblicher Teil der synthetischen Trainingsdaten stammt dabei aus Konkurrenzmodellen: Bildbeschriftungen, Frage-Antwort-Paare und Reasoning-Traces wurden mit Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen2.5-VL-72B-Instruct, OpenAIs gpt-oss-120b, Kimi-K2.5, GLM-4.1V-9B-Thinking und DeepSeek-OCR generiert. Für die Filterqualität setzte Nvidia zusätzlich GPT-4o und Gemini 3 Flash Preview ein.

Andere Modelle zum Training neuer Modelle zu nutzen, ist in der Branche gängige Praxis - auch wenn die wenigsten Entwickler so offen damit umgehen. Unternehmen wie OpenAI, Anthropic und Google haben chinesischen KI-Laboren wiederholt vorgeworfen, Modelle in großem Stil zu destillieren.

Die Audio-Daten umfassen die hauseigenen Datensätze Granary und SIFT-50M sowie Captions von Qwens Omni-Captioner. Für die Reinforcement-Learning-Phase nutzten die Forscher eine fünfstufige Pipeline über 25 Umgebungen, darunter Aufgaben für Visual Grounding, Chart- und Dokumentenverständnis, GUI-Klicks und automatische Spracherkennung.

Nvidia veröffentlicht neben den Gewichten in BF16, FP8 und NVFP4 auch Teile der Trainingsdaten, die Trainingspipelines auf Megatron-Bridge sowie die RL-Recipes auf NeMo-RL. Damit unterscheidet sich der Release von Modellen, die nur Gewichte freigeben. Der Reasoning-Modus ist standardmäßig aktiviert, für Aufgaben ohne Chain-of-Thought muss er explizit deaktiviert werden. Die Lizenz ist das NVIDIA Open Model Agreement, das kommerzielle Nutzung erlaubt.

Anzeige
DEC_D_Incontent-2

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.