Die nächste Generation von Anthropic-Modellen soll autonomer arbeiten, zwischen Denkprozessen und Tool-Nutzung wechseln und sich bei Fehlern selbst korrigieren können.
Anthropic bereitet laut The Information neue Claude Opus- und Sonnet-Modelle vor. Zwei Personen, die Zugang zu den Systemen hatten, berichten, dass die Modelle in den kommenden Wochen erscheinen und deutlich autonomer arbeiten sollen als bisherige KI-Systeme.
Der zentrale Unterschied: Die neuen Modelle kombinieren eigenständiges Denken mit der Nutzung externer Werkzeuge – und wechseln bei Bedarf dynamisch zwischen beiden Modi.
Wenn die Modelle bei der Nutzung eines Tools nicht weiterkommen, analysieren sie die Situation im Denkmodus und korrigieren sich selbst. Dieser Mechanismus soll sie in die Lage versetzen, komplexe Aufgaben mit weniger menschlicher Anleitung zu bewältigen.
Ein Beispiel von The Information: Für eine Marktanalyse zu einem Café in Manhattan zieht das Modell erst nationale Trends heran, erkennt dann deren Ungeeignetheit und analysiert gezielt Demografie-Daten aus dem East Village – um daraus passendere Vorschläge zu entwickeln.
Auch bei der Codegenerierung zeigen die neuen Modelle ein höheres Maß an Eigeninitiative. Sie testen den von ihnen erzeugten Code automatisch und unterbrechen bei Fehlern den Prozess, um die Ursache zu analysieren und den Code zu korrigieren.
Laut den Testpersonen soll dies auch in Fällen funktionieren, in denen die Nutzereingabe sehr allgemein ist – etwa bei der Anweisung, eine App zu beschleunigen. In solchen Szenarien probiert das Modell eigenständig verschiedene Optimierungsstrategien aus.
Weniger Anleitung, mehr Eigeninitiative
Damit folgt Anthropic einem Trend: KI-Systeme sollen mit minimalem Input kontinuierlich arbeiten und Probleme selbstständig lösen. Genau das sollen die neuen Claude-Modelle leisten, indem sie Reasoning und Tool Use kombinieren und aktiv zwischen beiden Modi wechseln, wenn es die Aufgabe erfordert.
Ähnlich agieren auch die kürzlich von OpenAI vorgestellten Modelle o3 und o4-mini. Während die o1-Vorgänger nur per Text zusätzliche Arbeitsschritte "durchdachten", kann die neue Generation o-Modelle in diesen Schritten auch Werkzeuge wie Internetsuche aufrufen, Code generieren oder Bilder auswerten. Das soll den Reasoning-Prozess robuster und vielseitiger machen. Erste Tests zeigen jedoch, dass etwa o3 bei komplexen Aufgaben häufiger Fehler macht als frühere OpenAI-Modelle.