Speicher, Speed, Strategie: Die möglichen Gründe für Nvidias Groq-Übernahme
Nvidia klaut Groq die besten Ingenieure und lizenziert die Chip-Technologie für angeblich 20 Milliarden – eine Quasi-Übernahme. Für den Deal gibt es mehrere mögliche Gründe.
Der Groq-Deal wirkt auf den ersten Blick wie ein teurer Einkauf von Technologie, die Nvidia selbst entwickeln könnte. Einige Medienberichte sprechen von einer Bewertung in der Größenordnung von 20 Milliarden US-Dollar. Bei einer Groq-Bewertung von 6,9 Milliarden US-Dollar nach der September-Finanzierungsrunde entspräche diese Summe einem Aufschlag von fast dem Dreifachen. Bestätigt ist diese Summe bislang nicht; weder Nvidia noch Groq haben finanzielle Details veröffentlicht.
Doch ein Blick auf die Marktdynamik legt nahe, dass der Chiphersteller mit der Quasi-Übernahme mehrere strukturelle Probleme gleichzeitig adressiert. Hier sind die möglichen Investitionsthesen – mehrere davon oder auch nur Teilaspekte können zutreffen.
Arbeitsteilung statt Einheitslösung
Nvidia definiert eine AI-Factory als Infrastruktur, die den gesamten KI-Lebenszyklus abdeckt: Datenaufnahme, Training, Inferenz. Der Enterprise-AI-Factory-Design-Guide betont die Latenz- und Durchsatzanforderungen für Echtzeit-Inferenz und komplexe Agenten-Interaktionen.
Nicht jede KI-Aufgabe benötigt dieselbe Hardware. In einer internen E-Mail, über die CNBC zuerst berichtete, schrieb Jensen Huang, Nvidia werde Groqs Low-Latency-Prozessoren in die AI-Factory-Architektur integrieren, um verschiedene Workloads auf passende Chips zu verteilen.
GPUs mit viel HBM-Speicher bleiben das Arbeitspferd für Training und Massenverarbeitung. Für Echtzeitanwendungen wie Sprachagenten oder autonome Systeme soll Groqs SRAM-Architektur zum Einsatz kommen. Nvidia muss dann nicht für jede latenzkritische Aufgabe teure HBM-GPUs einsetzen.
So ähnlich bewertet es die Bank of America: Der Deal sei "überraschend, strategisch, teuer, offensiv, defensiv und komplementär" zugleich. Die Kernthese der Analysten: Nvidia erkennt an, dass der schnelle Shift von Training zu Inferenz spezialisiertere Chips erfordern könnte. Der Chiphersteller könne zudem seine Plattform-Dominanz nutzen, um Wettbewerbsbedrohungen von anderen Spezial-Chip-Herstellern zu neutralisieren.
Die Speicherkrise verschärft sich
Ein wirtschaftlicher Hintergrund findet sich auf dem Speichermarkt. Laut TrendForce haben Samsung und SK hynix die Lieferpreise für HBM3e für 2026 um fast 20 Prozent angehoben. Samsung erhöhte laut Berichten im November 2025 die Preise für einige Speicherchips um bis zu 60 Prozent gegenüber September. DDR5-Spotpreise stiegen seit Anfang September 2025 um 307 Prozent.
Reuters berichtete im Oktober, dass SK hynix seine gesamte 2026-Produktion bereits ausverkauft hat. Ein weiterer Reuters-Bericht zeigt, dass HBM4 einen kundenspezifischen "Base Die" enthält, die unterste Schicht des Speicherstapels, die bei HBM4 stärker vom Kunden mitgestaltet wird. Das erschwert den Wechsel zu Konkurrenzprodukten und sorgt somit für noch mehr Druck in der Lieferkette.
Nvidia erkennt dieses Risiko im FY2025 Form 10-K aus dem Janaur 2025 bereits an: Das Unternehmen habe zur Sicherung künftiger Lieferungen Aufschläge gezahlt, Anzahlungen geleistet und langfristige Verträge eingegangen. Jensen Huang bestätigte laut Reuters den Preisanstieg, betonte aber, Nvidia habe erhebliche Mengen gesichert.
SRAM-First verringert HBM-Abhängigkeit
SRAM ist sehr schneller Speicher direkt auf dem Chip. HBM ist ebenfalls schnell, sitzt aber außerhalb des Compute-Dies und ist Teil einer breiteren Lieferkette mit den beschriebenen Engpässen.
Groqs LPU-Architektur nutzt On-Chip-SRAM als primären Gewichtsspeicher für Modelle, nicht nur als Cache. Das verringert die Abhängigkeit von externem HBM, begrenzt aber die Modellgröße pro Chip. Große Modelle müssen über viele Chips verteilt werden.
Der Trade-off lohnt sich primär bei latenzempfindlichen Aufgaben. Investor Gavin Baker argumentierte auf X, dass Inferenz sich in Prefill- und Decode-Phasen aufteilt. SRAM-Architekturen hätten bei der Decode-Phase Vorteile, weil dort der schnelle Speicherzugriff wichtiger ist als die Gesamtkapazität. Nvidia würde damit einen auf niedrige Latenz optimierten Inferenzpfad ins Portfolio holen.
SRAM als MoE-Beschleuniger
Moderne KI-Modelle wie Deepseek V3 nutzen Mixture of Experts (MoE): Pro Anfrage ist nur ein Teil der Experten aktiv, bei Deepseek V3 sind das 37 von 671 Milliarden Parametern.
Chip-Analyst Zephyr schreibt auf X, dass MoE-Modelle typischerweise Shared Experts und einige dichte Layer haben, die bei jeder Inferenz aktiv sind. Es sei sinnvoll, deren Gewichte im SRAM zu halten, während selten genutzte Experten im HBM liegen.
Für Deepseek V3 nennt Zephyr als Rechnung, dass die immer aktiven Bestandteile in FP8 auf knapp 3,6 Gigabyte kommen. Damit das wirklich im SRAM landet, müsste Nvidia diesen Speicher in entsprechender Größe bewusst in die Hardware einplanen, oder den dauerhaft aktiven Kern so auf mehrere Chips aufteilen, dass er dort jeweils lokal vorliegt.
Zephyr schätzt den Durchsatzvorteil durch diesen Ansatz auf 6 bis 10 Prozent. Das klingt nach wenig, aber bei Hardware-Ausgaben von 300 Milliarden Dollar pro Jahr summiere sich der Effekt schnell.
Baker sieht den Deal als Teil einer größeren Chip-Strategie: Nvidia könnte künftig mehrere Rubin-Varianten anbieten: eine für hohe Speicherkapazität beim Prefill, eine als Balance-Lösung für Training und gebatchte Inferenz, eine dritte für niedrige Latenz beim Decode mit stärkerem SRAM-Einsatz. Baker prognostiziert, dass viele konkurrierende KI-Chips mittelfristig vom Markt verschwinden könnten, mit Ausnahmen wie Googles TPU, Teslas KI-Chips und Amazons Trainium.
Kleine Modelle, schnelle Chips
Der Groq-Deal fügt sich in eine breitere Nvidia-Strategie ein. Im August 2025 veröffentlichten Nvidia-Forschende ein Paper, das für den verstärkten Einsatz kleiner Sprachmodelle mit weniger als 10 Milliarden Parametern in KI-Agenten plädiert. Solche Modelle seien für 40 bis 70 Prozent der typischen Agentenanfragen ausreichend und 10- bis 30-mal günstiger als große Modelle.
Für ein Modell mit 7 Milliarden Parametern in FP8-Präzision reichen etwa 7 Gigabyte für die Gewichte, wobei zusätzlicher Speicher für Laufzeitdaten wie KV-Cache hinzukommt. Modelle mit 70 Milliarden Parametern würden dagegen eine Verteilung über viele Chips erfordern. Die Forschungsarbeit und der Groq-Deal adressieren denselben Markt: Agentensysteme mit vielen kurzen Anfragen, die schnell bearbeitet werden müssen.
Vorhersagbare Reaktionszeiten statt Ausreißer
GPUs verteilen Rechenaufgaben dynamisch zur Laufzeit. Das maximiert den Durchsatz, kann aber zu unvorhersehbaren Verzögerungen führen. Einzelne Anfragen dauern manchmal deutlich länger als der Durchschnitt.
Groqs LPU funktioniert anders: Der gesamte Chip arbeitet wie ein Orchester im Takt. Alle Teile führen denselben Befehl gleichzeitig aus, nur auf unterschiedlichen Daten. Der Compiler plant alle Berechnungen im Voraus.
Laut Groqs technischem Blog ermöglicht dieses "statische Scheduling" konstante Antwortzeiten, egal wie viele Anfragen gerade hereinkommen. Für Sprachagenten oder Echtzeit-Entscheidungen kann das wichtiger sein als maximaler Durchsatz.
Wettbewerbsabwehr im Inferenz-Markt
Nvidia dominiert das Training, ist aber bei Inferenz stärkerem Wettbewerb ausgesetzt, durch AMD und Start-ups wie Groq und Cerebras. Beide haben etwa Projekte im Nahen Osten kommuniziert.
Hätte Groq weiter unabhängig skaliert, wäre das Start-up womöglich eine Referenzoption für latenzempfindliche Inferenz-Cluster geworden, mit entsprechendem Preisdruck auf Nvidias Geschäft. Auch Google hätte Interesse an Groq haben können, um das TPU-Geschäft zu stärken.
Talent ist das knappe Gut
Laut Groqs Ankündigung wechseln Jonathan Ross, Sunny Madra und weitere Ingenieure zu Nvidia. Ross ist ein TPU-Veteran, der bei Google an der TPU-Entwicklung beteiligt war, bevor er 2016 Groq gründete.
Das Besondere: Die Ingenieure haben Hardware, Software und Compiler als Gesamtsystem entwickelt. Nvidia bekommt hier also ein eingespieltes Team, das weiß, wie man einen kompletten Inferenz-Chip von Grund auf baut. Das ist wichtig, denn anders als bei GPUs gibt es bei Groqs deterministischem Ansatz keinen Spielraum zur Laufzeit: Der Compiler plant jeden Takt im Voraus und muss exakt wissen, wie die Hardware reagiert.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.