Nutzer hatten Recht: Anthropic bestätigt Qualitätsprobleme bei Claude

9. September 2025

Anthropic

Kurz & Knapp

Seit Ende August 2025 häufen sich Berichte von Entwicklern und Nutzern, dass die Code-Qualität von Anthropics KI-Modell Claude deutlich nachgelassen habe. Nutzer kritisierten unter anderem fehlerhafte Code-Generierung, das Ignorieren eigener Anweisungen und unzuverlässige Testergebnisse.
Auf unsere Nachfrage hat Anthropic auf die Beschwerden reagiert und bestätigt, dass technische Fehler bei Claude Sonnet 4 und Claude Haiku 3.5 aufgetreten sind, die inzwischen behoben wurden. Die Untersuchung zu Qualitätsproblemen bei Claude Opus 4.1 läuft noch.
Das Unternehmen betont, dass keine absichtliche Verschlechterung der Modellqualität stattgefunden habe und verweist auf die Bedeutung des Nutzer-Feedbacks für die Fehleridentifikation. Der Vorfall verdeutlicht, dass technische Probleme für wahrgenommene Leistungsschwankungen verantwortlich sein können und unterstreicht die Notwendigkeit transparenter Kommunikation seitens der KI-Anbieter.

Seit Wochen häufen sich Beschwerden über die nachlassende Code-Qualität von Anthropics Claude. Auf unsere Nachfrage bestätigt das Unternehmen zwei Fehler und untersucht weitere Meldungen.

In den letzten Wochen berichteten zahlreiche Entwickler und Nutzer auf Plattformen wie Reddit, X und YouTube über eine spürbare Verschlechterung der Leistung von Anthropics KI-Modellen, insbesondere bei der Generierung von Code. Die Kritik reichte von allgemeinen Feststellungen, dass Claude "viel schlechter geworden" sei, bis hin zu detaillierten Fehlerberichten. Nun hat Anthropic offiziell auf die Vorwürfe reagiert und technische Probleme eingeräumt.

"Claude hat den Verstand verloren"

Die Beschwerden, die sich vor allem seit Ende August 2025 häuften, konzentrierten sich auf die Programmierfähigkeiten des Modells. Ein Nutzer auf Reddit schrieb, Claude sei "deutlich dümmer" geworden, habe seinen "eigenen Plan ignoriert und den Code durcheinandergebracht". Andere berichteten, das Modell habe angefangen, über vorgenommene Code-Änderungen zu "lügen" oder habe in Tests nicht einmal die Methoden aufgerufen, die es testen sollte. Auch unser eigenes Entwicklerteam berichtete von Problemen.

Die Community spekulierte über die Ursachen. Einige vermuteten eine absichtliche Drosselung der Leistung, während andere technische Gründe wie den Einsatz von weniger zuverlässigen "quantisierten Varianten" des Modells für möglich hielten. Es gab auch Gegenstimmen, die die Ursache beim Nutzer sahen, etwa durch "Context Rot" in langen Konversationen oder eine wachsende Komplexität der eigenen Codebasis.

Anthropic räumt Fehler ein und verspricht Besserung

Auf Anfrage von THE DECODER in der vergangen Woche zu den zahlreichen Nutzerbeschwerden teilte Anthropic in einem Statement mit: "Wir sind uns der Community-Berichte über die jüngsten Leistungsprobleme bei Claude Code bewusst und nehmen dieses Feedback ernst. Wir haben kürzlich zwei Fehler behoben, die Claude Sonnet 4 und Claude Haiku 3.5 betrafen, und untersuchen Berichte über die Ausgabequalität von Claude Opus 4.1."

Das Unternehmen betonte die Rolle der Nutzer: "Das Feedback der Nutzer über mehrere Kanäle hat uns geholfen, diese Vorfälle zu identifizieren und zu priorisieren. Wir sind dankbar für diejenigen, die uns helfen, Claude zu verbessern, und arbeiten daran, unsere Kommunikation mit unserer Entwickler-Community zu verbessern, wenn Probleme auftreten."

Die Aussagen decken sich mit einem heute veröffentlichten offiziellen Vorfallbericht, in dem Anthropic klarstellt, dass man "niemals absichtlich die Modellqualität aufgrund von Nachfrage oder anderen Faktoren" verschlechtere. Die Probleme seien auf "nicht zusammenhängende Fehler" zurückzuführen. Betroffen waren dabei Claude.ai, die Entwickerconsole, die API und Claude Code. Die Untersuchung von Qualitätsmeldungen bezüglich des leistungsstärksten Modells, Claude Opus 4.1, dauere noch an.

Der Vorfall erinnert an frühere Debatten, im August 2024 gab es bereits ähnliche Klagen und in der zweiten Jahreshälfte 2023 warfen Nutzer OpenAI vor, GPT-4 sei mit der Zeit "dümmer" geworden. OpenAI bestritt damals, die Modelle nach der Veröffentlichung signifikant zu verändern, und viele Beobachter führten die Beschwerden auf eine subjektive Wahrnehmung zurück: Der anfängliche "Wow-Effekt" lasse nach und Nutzer würden die Grenzen des Modells stärker wahrnehmen. Der Fall Claude zeigt nun jedoch, dass hinter solchen Wahrnehmungen tatsächlich handfeste technische Probleme stecken können. Und: Er zeigt die Notwendigkeit einer transparenteren Kommunikation seitens der KI-Anbieter, um das Vertrauen der Nutzer in eine Technologie zu sichern, deren Leistung nicht immer konstant ist.