KI-Branche geht die Rechenleistung aus: Ausfälle, Rationierung und steigende GPU-Preise
Kurz & Knapp
- Die explodierende Nachfrage nach agentischer KI führt zu einer massiven Kapazitätskrise: Anthropic verzeichnet laut Wall Street Journal eine API-Verfügbarkeit von nur 98,95 Prozent – weit unter dem Branchenstandard von 99,99 Prozent – und verliert dadurch erste Unternehmenskunden an OpenAI.
- OpenAI stellt seine Videogenerierungs-App Sora ein, um Rechenressourcen für Coding- und Enterprise-Produkte freizumachen. Die Token-Nutzung stieg von Oktober bis März von 6 auf 15 Milliarden pro Minute.
- GPU-Preise stiegen laut Ornn Compute Price Index um 48 Prozent. Analysten der Bank of America erwarten, dass die Nachfrage das Angebot bis mindestens 2029 übersteigen wird.
Die explodierende Nachfrage nach KI-Agenten trifft auf begrenzte Rechenkapazität. Anthropic kämpft mit Ausfällen, OpenAI kündigt das Ende von Sora an, und GPU-Preise steigen laut Marktdaten um fast 50 Prozent.
Der KI-Boom verschlingt Rechenleistung schneller, als die Branche sie bereitstellen kann. Laut einem Bericht des Wall Street Journal hat die sprunghaft gestiegene Nachfrage nach sogenannter agentischer KI, also autonomen Werkzeugen, die selbstständig Aufgaben erledigen, in den vergangenen Monaten zu einer massiven Kapazitätskrise geführt. Die Folgen: häufige Ausfälle bei führenden Anbietern, gestrichene oder eingeschränkte Produkte und stark steigende Chippreise.
Anthropic wächst explosiv und kämpft mit Ausfällen
Besonders hart trifft es laut dem Bericht Anthropic, den Hersteller des Chatbots Claude und der Coding-App Claude Code. Seit Mitte Februar häufen sich dem WSJ zufolge die Ausfälle so stark, dass manche Unternehmenskunden zu anderen Anbietern wechseln. David Hsu, Gründer der Softwareplattform Retool, sagte dem WSJ, er bevorzuge eigentlich Anthropics Opus-4.6-Modell, habe aber kürzlich auf OpenAI umgestellt: "Anthropic fällt einfach ständig aus."
Die Uptime der Claude-API lag dem Bericht zufolge in den 90 Tagen bis zum 8. April bei 98,95 Prozent. Das ist weit entfernt vom in der etablierten Cloud-Branche üblichen Standard von 99,99 Prozent. "Das ist nicht normal", sagt Amir Haghighat, Mitgründer des KI-Inference-Start-ups Baseten. "Denken Sie an AWS, Datenbanken, Stripe. Diese Dienste müssen extrem zuverlässig sein. Das ist nicht die Servicequalität, die man von dem Unternehmen erwartet, das die Intelligenz für die eigene Anwendung liefert."
Gleichzeitig wächst Anthropic rasant. Ende 2025 lag die annualisierte Umsatzrate (ARR) laut Unternehmensangaben bei 9 Milliarden Dollar, im Februar bei 14 Milliarden, zwei Monate später bereits bei über 30 Milliarden Dollar.
OpenAI kündigt Sora-Ende an und verschiebt Ressourcen
Auch OpenAI spürt den Engpass. Das Unternehmen hat kürzlich die Einstellung seiner Sora-Videogenerierungs-App angekündigt, unter anderem um Rechenressourcen für Coding- und Enterprise-Produkte auf Basis eines neuen KI-Modells mit dem Codenamen Spud freizumachen. Die Web- und App-Version von Sora soll am 26. April enden, die API im September.
Die Token-Nutzung in OpenAIs API stieg dem WSJ zufolge von 6 Milliarden pro Minute im Oktober auf 15 Milliarden pro Minute Ende März. "Ich verbringe viel Zeit damit, kurzfristig verfügbare Rechenkapazität zu finden", sagte OpenAIs Finanzchefin Sarah Friar in einem Interview. "Wir treffen gerade sehr schwierige Entscheidungen über Dinge, die wir nicht weiterverfolgen, weil uns die Rechenleistung fehlt."
Seit Januar reagieren Anbieter mit neuen Limits auf den Agent-Boom
Die Kapazitätskrise zeigt sich auch in den Plänen für Entwicklertools, die häufig agentisch arbeiten und so deutlich mehr Token verbrauchen.
GitHub kündigte am 10. April neue Limits für Copilot an und verwies ausdrücklich auf schnelles Wachstum, hohe Gleichzeitigkeit und intensive Nutzung als Gründe. Nutzer, die an die neuen Obergrenzen stoßen, müssen warten oder auf andere Modelle wechseln.
Auch OpenAI stellte Anfang April seine Codex-Abrechnung für Unternehmen von pauschalen Nachrichten auf tokenbasierte Messung um und führte ein neues 100-Dollar-Pro-Tier ein, das für längere, rechenintensive Coding-Sessions gedacht ist. Der günstigere Plus-Plan wurde so angepasst, dass er eher viele kürzere Sessions über die Woche statt einzelner Intensivnutzung abdeckt.
Windsurf ersetzte im März sein Credit-System durch tägliche und wöchentliche Quoten mit Zukaufoption zu API-Preisen und Anthropic passte bereits Ende März seine Session-Limits an und bot zeitweise doppelte Nutzung außerhalb der Stoßzeiten an, um die Last besser zu verteilen.
Der übergreifende Trend: Normales Chatten und agentische Arbeit werden zunehmend getrennt bepreist, schwere Workloads über separate Pools, Credits und tokenbasierte Zuschläge gesteuert.
GPU-Preise steigen deutlich, Infrastruktur kann nicht mithalten
Auf dem Spotmarkt für Nvidias Grafikprozessoren sind die Preise laut dem Ornn Compute Price Index zudem zuletzt stark gestiegen. Eine Stunde auf einem Blackwell-Chip der neuesten Generation kostet demnach 4,08 Dollar, ein Anstieg um 48 Prozent gegenüber 2,75 Dollar vor zwei Monaten.
Laut dem WSJ hat Coreweave, einer der größten börsennotierten KI-Cloud-Anbieter, gegen Ende 2025 die Preise um mehr als 20 Prozent erhöht und verlangt von kleineren Kunden nun Dreijahresverträge statt bisher einem Jahr. Analysten der Bank of America gehen davon aus, dass die Nachfrage das Angebot bis mindestens 2029 übersteigen wird.
"Es gibt eine massive Kapazitätskrise, wie ich sie in den mehr als fünf Jahren, in denen ich dieses Geschäft führe, noch nicht erlebt habe", sagte J.J. Kardwell, CEO des Cloud-Infrastrukturunternehmens Vultr, dem WSJ. "Warum stellen wir nicht einfach mehr Hardware bereit? Die Lieferzeiten sind zu lang. Rechenzentren brauchen zu lange, und der verfügbare Strom bis 2026 ist bereits vergeben."
Preiserhöhungen sind ein Mittel gegen den Engpass. Für die führenden KI-Unternehmen, die sich einen erbitterten Wettbewerb um Nutzer liefern, wäre genau das allerdings ein riskanter Schritt.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren