Anthropics neues Claude-Modell Sonnet 4.5 soll bis zu 30 Stunden am Stück arbeiten

29. September 2025

Anthropic

Kurz & Knapp

Anthropic hat mit Claude Sonnet 4.5 sein bisher leistungsstärkstes Sprachmodell vorgestellt, das besonders in den Bereichen Softwareentwicklung, Computerbedienung und Automatisierung besser abschneiden soll als frühere Modelle.
Im SWE-bench Verified Benchmark erzielt es laut Anthropic die besten Ergebnisse aller getesteten Modelle und kann laut internen Tests über 30 Stunden an komplexen Aufgaben arbeiten.
Parallel zum Modell-Update führt Anthropic neue Entwicklerfunktionen ein, darunter Checkpoints, eine VS-Code-Extension, verbesserte Kontextverwaltung und eine Chrome-Erweiterung für Max-Abonnenten. Mit dem Claude Agent SDK können Entwickler erstmals eigene KI-Agenten auf Basis der Anthropic-Infrastruktur erstellen.

Anthropics neues Sonnet 4.5-Modell setzt den aktuellen Kurs der LLM-Entwicklung fort: Der Fokus liegt auf Code und auf Ausdauer.

Anthropic hat mit Claude Sonnet 4.5 sein bislang leistungsstärkstes Sprachmodell veröffentlicht. Die neue Version soll laut dem Unternehmen besonders bei Softwareentwicklung, Computerbedienung und Aufgabenautomatisierung besser abschneiden als frühere Modelle – einschließlich des erst im August erschienenen Claude Opus 4.1. Auch Sonnet 4 ist erst rund vier Monate alt. Die Veröffentlichungszyklen werden kürzer, die Fortschritte wirken zunehmend inkrementell.

Sonnet 4.5 schreibt besseren Code und arbeitet länger am Stück

Im Benchmark SWE-bench Verified, der reale Programmieraufgaben bewertet, erreicht Claude Sonnet 4.5 laut Anthropic die besten Ergebnisse aller getesteten Modelle. Es soll in der Lage sein, über 30 Stunden fokussiert an komplexen Aufgaben zu arbeiten; ein Wert, den Anthropic in internen Tests beobachtet haben will.

Auch OpenAI wettet darauf, dass auf Logik getrimmte Sprachmodelle zunehmend mehrere Stunden erfolgreich am Stück arbeiten und dadurch komplexere Aufgaben erledigen können.

Im OSWorld-Benchmark, der die Fähigkeit zur Bedienung realer Computersysteme misst, erreicht Sonnet 4.5 einen Spitzenwert von 61,4 Prozent, nachdem Sonnet 4 vier Monate zuvor noch bei 42,2 Prozent lag. Das folgende Video zeigt die Claude-Erweiterung für Chrome im Einsatz, die mit Sonnet 4.5 Aufgaben wie Formulare ausfüllen erfüllt.

Neben Programmier- und Computerfähigkeiten soll Sonnet 4.5 auch in Mathematik, logischem Denken und fachspezifischem Wissen zugelegt haben. Laut Anthropic zeigen Tests mit Fachleuten aus den Bereichen Finanzen, Recht, Medizin und MINT deutlich bessere Ergebnisse im Vergleich zu früheren Claude-Modellen. Anthropic empfiehlt Sonnet 4.5 für alle Anwendungsszenarien.

Claude Sonnet 4.5 ist ab sofort über die Claude-API verfügbar. Die Preise bleiben unverändert bei 3 bzw. 15 US-Dollar pro Million Tokens und zählen damit weiterhin zu den höchsten im Markt.

Parallel zum Modell-Update erhält auch das Entwicklungswerkzeug Claude Code neue Funktionen. Checkpoints ermöglichen es, Aufgabenstände zu speichern und zurückzusetzen. Außerdem gibt es eine überarbeitete Terminal-Oberfläche und eine native VS-Code-Extension zur besseren Integration in Entwicklungsumgebungen.

Claude Agent SDK für eigene KI-Agenten

Mit dem Claude-Agent-SDK stellt Anthropic erstmals die Infrastruktur öffentlich zur Verfügung, mit der das Unternehmen eigene KI-Agenten entwickelt. Das SDK soll unter anderem die Verwaltung von Langzeitaufgaben, Berechtigungssysteme und die Koordination mehrerer Subagenten erleichtern. Über die Claude-API stehen zudem neue Werkzeuge zur Speicherverwaltung und Kontextbearbeitung bereit, mit denen sich langlaufende Agentenprozesse besser steuern lassen.

Parallel zur Veröffentlichung bietet Anthropic mit „Imagine with Claude“ ein zeitlich begrenztes Experiment, bei dem Sonnet 4.5 in Echtzeit Software generiert. Die Demo steht Max-Abonnenten für fünf Tage zur Verfügung.

Quelle: Anthropic