Anzeige
Skip to content

Anthropic erklärt, warum Claude Code wochenlang schlechter funktionierte

Image description
Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Nach Nutzerbeschwerden über sinkende Qualität bei Claude Code hat Anthropic drei Fehler behoben. Diese betrafen Anpassungen bei der Rechentiefe, dem Zwischenspeicher und den Textbegrenzungen.
  • Um solche Vorfälle künftig zu vermeiden, verschärft das Unternehmen seine internen Tests vor neuen Updates. Als Entschädigung für die Einschränkungen wurden die Nutzungslimits aller Abonnenten zurückgesetzt.
  • Die Probleme verdeutlichen eine branchenweite Ressourcenknappheit bei der Rechenleistung. Dieser Engpass führt vermehrt zu Ausfällen und zwingt KI-Anbieter, ihre Preise für rechenintensive Werkzeuge zu erhöhen.

Nutzer beschwerten sich über nachlassende Qualität bei Claude Code. Anthropic hat drei separate Fehlerquellen identifiziert und behoben. Das Unternehmen verspricht strengere Qualitätskontrollen.

Über den vergangenen Monat häuften sich Berichte von Nutzern, dass Anthropics Coding-Tool Claude Code spürbar schlechtere Ergebnisse liefere. Anthropic hat die Ursachen nun in einem ausführlichen Post-Mortem offengelegt: Drei voneinander unabhängige Änderungen an Claude Code, dem Claude Agent SDK und Claude Cowork führten in Kombination zu einer breit wahrgenommenen Verschlechterung. Die API selbst war laut Anthropic nicht betroffen. Alle drei Probleme seien seit dem 20. April mit Version 2.1.116 behoben.

"Wir nehmen Berichte über Verschlechterungen sehr ernst. Wir verschlechtern unsere Modelle niemals absichtlich", schreibt das Unternehmen.

Weniger Denkaufwand, Cache-Optimierungen und Prompt-Anweisungen

Der erste Fehler geht auf den 4. März zurück. Anthropic senkte den Standard-Reasoning-Effort von "high" auf "medium", weil einige Nutzer im High-Modus extreme Latenzen erlebten. Interne Tests hatten gezeigt, dass der Medium-Modus bei den meisten Aufgaben nur geringfügig schlechtere Ergebnisse bei deutlich niedrigerer Latenz lieferte. Die Rechnung ging nicht auf: Nutzer berichteten schnell, Claude Code fühle sich weniger intelligent an. Am 7. April nahm Anthropic die Änderung endgültig zurück.

Anzeige
DEC_D_Incontent-1

Das zweite Problem war ein Bug in einer Caching-Optimierung vom 26. März. Geplant war, nach einer Stunde Inaktivität ältere Reasoning-Abschnitte einmalig zu löschen, um Latenz beim Wiederaufnehmen zu reduzieren. Ein Implementierungsfehler führte jedoch dazu, dass der Reasoning-Verlauf bei jedem weiteren Turn gelöscht wurde. Claude verlor zunehmend den Kontext über eigene Entscheidungen. Nutzer bemerkten Vergesslichkeit, Wiederholungen und seltsame Tool-Auswahl. Zusätzlich verbrauchten die resultierenden Cache-Misses die Nutzungslimits schneller als erwartet. Der Bug passierte laut Anthropic Code Reviews, Unit Tests und internes Dogfooding unentdeckt und wurde erst am 10. April behoben.

Am 16. April kam ein drittes Problem hinzu: Eine System-Prompt-Anweisung sollte die bekannte Wortfülle von Opus 4.7 eindämmen. Die Zeile lautete: "Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail." Spätere Tests mit einer breiteren Eval-Suite zeigten einen Qualitätsverlust von 3 Prozent. Anthropic nahm die Änderung am 20. April zurück.

Anthropic verschärft Qualitätskontrollen

Weil jede Änderung unterschiedliche Nutzergruppen zu unterschiedlichen Zeitpunkten betraf, wirkte der Gesamteffekt wie eine diffuse Verschlechterung, die anfangs schwer von normaler Variation zu unterscheiden war.

Als Konsequenz sollen künftig mehr Mitarbeiter den exakt öffentlichen Build von Claude Code nutzen statt interner Testversionen. Jede System-Prompt-Änderung muss eine breite, modellspezifische Eval-Suite durchlaufen.

Anzeige
DEC_D_Incontent-2

Bei Änderungen, die potenziell die Intelligenz beeinträchtigen, will Anthropic Soak-Perioden und schrittweise Rollouts einführen. Als Entschädigung hat das Unternehmen die Nutzungslimits für alle Abonnenten zurückgesetzt.

Außerdem hat Anthropic den X-Account @ClaudeDevs eingerichtet, um Produktentscheidungen transparenter zu kommunizieren.

Nicht das erste Mal: Wahrgenommene Verschlechterung als Dauerthema

Es ist nicht das erste Mal, dass Nutzer über nachlassende KI-Qualität klagen. Bereits in der zweiten Jahreshälfte 2023 warfen Nutzer OpenAI vor, GPT-4 sei mit der Zeit "dümmer" geworden. OpenAI bestritt damals, die Modelle nach der Veröffentlichung signifikant zu verändern.

Auch bei Claude gab es zuvor ähnliche Beschwerden, damals waren Bugs in der Infrastruktur das Problem. Der aktuelle Fall zeigt erneut: Hinter solchen Wahrnehmungen stecken oft weniger Modellregressionen als vielmehr Änderungen an der Tooling-Schicht oder der Infrastruktur. Nutzer profitieren im realen Einsatz von Gerüsten wie Claude Code, da sie die Fähigkeiten der Modelle sinnvoll lenken und mit dem richtigen Kontext versorgen. Gibt es Fehler in diesem Gerüst, tritt der gegenteilige Effekt ein. Dazu kommen herstellerseitige Änderungen, wie Anthropics Eingriff in die Reasoning-Tiefe.

Die Ursache für solche Eingriffe liegt zunehmend auch in einer branchenweiten Ressourcenknappheit. Laut einem Bericht des Wall Street Journal lag Anthropics API-Verfügbarkeit zuletzt bei nur 98,95 Prozent, weit unter dem Cloud-Branchenstandard von 99,99 Prozent. GPU-Stundenpreise auf dem Spotmarkt stiegen laut Ornn Compute Price Index um 48 Prozent, und Analysten der Bank of America erwarten, dass die Nachfrage das Angebot bis mindestens 2029 übersteigen wird. OpenAI stellt deshalb seine Videogenerierungs-App Sora ein, um Rechenkapazität für Coding- und Enterprise-Produkte freizumachen. Auch GitHub pausierte Neuanmeldungen für mehrere Copilot-Tarife.

Unter diesem Druck geraten auch die Preismodelle ins Rutschen. Anthropics Head of Growth räumte kürzlich ein, dass die bestehenden Pro- und Max-Tarife "nicht für diese Nutzung gebaut" seien, da sie vor rechenintensiven Tools wie Claude Code entstanden. Das Unternehmen testete kurzzeitig sogar, Claude Code für neue Pro-Abonnenten zu entfernen, ruderte nach Kritik aber zurück.

OpenAI wiederum verdoppelte mit GPT-5.5 die API-Preise gegenüber dem Vorgänger auf 5 Dollar pro Million Input-Tokens und 30 Dollar pro Million Output-Tokens. Die Zeiten günstiger Flatrates für die leistungsstärksten agentischen KI‑Werkzeuge neigen sich dem Ende zu.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Anthropic