Nvidia veröffentlicht Nemotron 3: Hybride Mamba-Modelle für autonome KI-Agenten

17. Dezember 2025

Nvidia

Kurz & Knapp

Nvidia stellt mit Nemotron-3 eine neue KI-Modellreihe vor, die dank hybrider Mamba- und Transformer-Architektur lange Texte effizient verarbeitet und speziell für agentische KI entwickelt wurde.
Das Modell Nano ist offen verfügbar und kombiniert hohe Geschwindigkeit mit geringem Speicherbedarf; kommende Modelle bringen zusätzliche Effizienz- und Beschleunigungstechniken.
Nvidia veröffentlicht neben den Modellgewichten auch Trainingsanleitungen und große Datensätze.

Mit der Nemotron-3-Familie setzt Nvidia auf eine Kombination aus Mamba- und Transformer-Architekturen, um lange Kontextfenster ressourcenschonend auszunutzen.

Mit der neuen Modellgeneration zielt der Konzern spezifisch auf agentische KI ab. Darunter versteht die Industrie KI-Systeme, die komplexe Aufgaben über längere Zeiträume und viele Einzelschritte hinweg autonom bewältigen. Die Familie umfasst die drei Modelle Nano, Super und Ultra, wobei das Einstiegsmodell Nano bereits veröffentlicht wurde. Die leistungsstärkeren Varianten Super und Ultra sollen in der ersten Jahreshälfte 2026 folgen.

Technisch bricht Nvidia mit dem aktuell weitverbreiteten Standard reiner Transformer-Modelle und setzt stattdessen auf eine hybride Struktur. Diese verknüpft effiziente Mamba-2-Schichten mit einzelnen Transformer-Elementen und einem Mixture-of-Experts-Ansatz (MoE), wie auch IBM und Mistral ihn schon getestet haben.

Gegenüber Transformern benötigt es gerade bei langen Eingabesequenzen weniger Ressourcen. Während der Speicherbedarf bei reinen Transformern linear mit der Länge der Eingabe wächst, benötigen die hier überwiegend eingesetzten Mamba-Schichten während der Textgenerierung nur einen konstanten Speicherzustand.

Das ermöglicht bei Nemotron 3 ein Kontextfenster von bis zu einer Million Token, was keinen neuen Rekord markiert, aber sich in eine Reihe mit ressourcenintensiven Frontier-Modellen von OpenAI oder Google stellt. Ein solches Volumen erlaubt es KI-Agenten, ganze Code-Repositories, umfangreiche Dokumentensammlungen oder lange Verlaufshistorien im Arbeitsspeicher zu halten, ohne die Hardware-Anforderungen immer weiter steigen zu lassen.

Effizienz durch hybrides Design

Das nun veröffentlichte Modell Nano verfügt über insgesamt 31,6 Milliarden Parameter, von denen pro Berechnungsschritt jedoch nur 3 Milliarden aktiv sind. Im Benchmark-Aggregator Artificial Analysis Index konkurrieren die Open-Source-Modelle mit gpt-oss-20B oder Qwen3-30B bei der Genauigkeit, weisen aber einen weit höheren Tokendurchsatz auf. Allerdings benötigt es laut Artificial Intelligence mit 160 Millionen Token für einen Test-Durchlauf auch weit mehr als das zweitplatzierte Qwen3-VL mit 110 Millionen.

Ein Streudiagramm mit dem Titel "Intelligence vs. Output Speed". Die X-Achse zeigt "Output Speed (Output Tokens per Second)", die Y-Achse den "Artificial Analysis Intelligence Index". Verschiedene KI-Modelle sind als farbige Punkte eingetragen. Nvidia Nemotron 3 Nano befindet sich weit rechts oben im grün markierten Bereich für hohe Leistung und Geschwindigkeit, während andere Modelle wie Qwen3 oder GPT-OSS-20B weiter links oder unten liegen. — Das größte Nemotron-Modell positioniert sich im Quadranten rechts oben mit vergleichsweise hoher Genauigkeit und ist gleichzeitig das schnellste. | Bild: Nvidia

Für die kommenden größeren Modelle Super und Ultra führt Nvidia zwei wesentliche architektonische Neuerungen ein. Die erste Technik nennt sich LatentMoE. Bei herkömmlichen MoE-Modellen werden Token direkt zu Experten-Netzwerken geroutet, was viel Speicherbandbreite kostet.

Die neue Technik projiziert die Token zunächst in eine komprimierte, latente Repräsentation, bevor sie verarbeitet werden. das erlaubt es laut Nvidia, die Anzahl der Experten und die Anzahl der aktiven Experten pro Token drastisch zu erhöhen, ohne die Inferenzgeschwindigkeit zu drosseln.

Vergleichsdiagramm zweier neuronaler Netzwerk-Architekturen. Links (a) die "Standard MoE architecture", bei der Daten direkt vom Router zu den Experten (E1-E4) gehen. Rechts (b) die "Latent MoE architecture", bei der vor und nach den Experten grüne Blöcke für "Latent down-proj" und "Latent up-proj" eingefügt sind. Zudem sind im rechten Diagramm mehr Experten (E1-E8) dargestellt. — Durch eine Projektion in einen komprimierten latenten Raum ("Latent down-proj" / "Latent up-proj") können mehr Experten effizienter genutzt werden, ohne die Rechenlast zu erhöhen. | Bild: Nvidia

Zusätzlich nutzen die großen Modelle eine sogenannte Multi-Token-Prediction (MTP). Dabei sagen die Modelle während des Trainings mehrere zukünftige Token gleichzeitig voraus. Das soll das logische Schlussfolgern verbessern und gleichzeitig die Textgenerierung beschleunigen. Trainiert werden Super und Ultra im neuen 4-Bit-Gleitkommaformat NVFP4, das speziell auf die Blackwell-GPU-Architektur zugeschnitten ist.

Schematische Darstellung der Multi-Token-Prediction-Architektur. Ein gemeinsamer "Shared"-Layer verarbeitet vier Inputs. Darüber zweigen vier "Heads" ab, die jeweils vier Ziel-Token (Targets) vorhersagen. Eine Legende erklärt, dass die zusätzlichen Vorhersagen bei der Inferenz verworfen oder zur Beschleunigung genutzt werden. — Das Modell sagt während des Trainings nicht nur das nächste Wort, sondern gleich vier Token voraus. Dies soll das logische Verständnis verbessern und später die Textgenerierung beschleunigen. | Bild: Nvidia

Nvidia legt Datensätze offen

Ungewöhnlich für einen großen KI-Akteur ist der Umfang der Veröffentlichung. Nvidia stellt nicht nur die Modellgewichte für die Nano-Version unter einer offenen Lizenz bereit, sondern veröffentlicht auch die Trainingsrezepte und große Teile der verwendeten Datensätze auf Hugging Face.

Dazu gehören der Datensatz Nemotron-CC-v2.1 mit 2,5 Billionen Token basierend auf Common Crawl, Nemotron-CC-Code-v1 mit 428 Milliarden Code-Token sowie synthetische Datensätze für mathematisches Denken, wissenschaftliches Programmieren und agentische Sicherheit.

Das Training der Modelle erfolgte mittels Reinforcement Learning (RL) in einer Vielzahl von Umgebungen gleichzeitig. Dieses Multi-Environment-RL soll verhindern, dass das Modell Fähigkeiten in einem Bereich verliert, während es in einem anderen optimiert wird. Entwickler können über die Open-Source-Bibliothek NeMo Gym eigene RL-Umgebungen nutzen.

Schon vor einigen Monaten hatte Nvidia die Industrie dazu aufgerufen, die Forschung mit Blick auf agentischen Einsatz eher in Richtung kleinerer Sprachmodelle zu lenken. Nemotron-3 mit Fokus auf Geschwindigkeit statt Leistung scheint daher ein logischer Schritt in dieser Strategie.

Etwas verwirrend ist indes die Nummerierung: Nemotron-4, das auf die Generierung synthetischer Trainingsdaten spezialisiert ist, hatte das US-Unternehmen bereits im Sommer 2024 präsentiert.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Nvidia | Developer Blog | Paper