Inhalt
summary Zusammenfassung

Anthropic stellt ein verbessertes Claude 3.5 Sonnet und ein neues Claude 3.5 Haiku vor. Außerdem führt das Unternehmen ein neues Feature ein: KI-gesteuerte Computernutzung.

Anzeige

Bei Programmieraufgaben konnte Claude 3.5 Sonnet seine Leistung im SWE-bench Verified Test von 33,4 Prozent auf 49,0 Prozent steigern. Damit übertrifft es laut Anthropic alle öffentlich verfügbaren Modelle, einschließlich spezialisierter Systeme für agentenbasiertes Programmieren.

Auch im TAU-Bench, einem Test für den Einsatz agentenbasierter Werkzeuge, konnte das Modell deutliche Fortschritte erzielen. Im Einzelhandelsbereich stieg die Leistung von 62,6 Prozent auf 69,2 Prozent, im anspruchsvolleren Luftfahrtbereich von 36,0 Prozent auf 46,0 Prozent.

Neues Haiku-Modell soll bisheriges Spitzenmodell Opus in den Schatten stellen

Neben den Verbesserungen an Sonnet präsentiert Anthropic ein neues Claude 3.5 Haiku-Modell. Dieses soll laut Unternehmensangaben die Leistung des bisherigen Spitzenmodells Claude 3 Opus in vielen Intelligenzbenchmarks übertreffen - und das bei gleichen Kosten und ähnlicher Geschwindigkeit wie das Vorgängermodell Claude 3 Haiku. Ein mögliches neues Opus-Modell erwähnt Anthropic in der heutigen Ankündigung nicht.

Anzeige
Anzeige
Das neue Claude 3.5 Sonnet-Modell zeigt in vielen Bereichen verbesserte Leistungen, insbesondere bei Reasoning-Aufgaben, mathematischem Problemlösen und Programmieraufgaben. Im generellen Sprachverständnis-Benchmark MMLU liegt es nur knapp vor der alten Sonnet-3.5.-Variante. | Bild: Anthropic

Besonders beeindruckend sei die Leistung von Claude 3.5 Haiku bei Programmieraufgaben: Im SWE-bench Verified-Test erreicht es 40,6 Prozent und übertrifft damit nach Anthropics Aussage viele Agenten, die auf öffentlich verfügbaren State-of-the-Art-Modellen basieren.

Sonnet 3.5 ist bis April 2024 aktuell informiert, das neue Haiku-Modell hat Wissen bis zum Juli 2024. Haiku soll Ende des Monats erscheinen.

KI-gesteuerte Computernutzung als Meilenstein

Als besonders innovativ bezeichnet Anthropic die neue Funktion zur Computernutzung. Statt spezifische Tools für einzelne Aufgaben zu entwickeln, verfolgt das Unternehmen einen breiteren Ansatz: Claude soll allgemeine Computerfähigkeiten erlernen, um eine Vielzahl von Standard-Tools und Softwareprogrammen nutzen zu können, die ursprünglich für Menschen konzipiert wurden.

Zu diesem Zweck hat Anthropic eine API entwickelt, die es Claude ermöglicht, Computeroberflächen wahrzunehmen und mit ihnen zu interagieren. Entwickler können diese API integrieren, um Claude in die Lage zu versetzen, Anweisungen wie "Nutze Daten von meinem Computer und aus dem Internet, um dieses Formular auszufüllen" in konkrete Computerbefehle zu übersetzen.

Das System kann den Mauszeiger auf dem Bildschirm bewegen, an den hoffentlich richtigen Stellen klicken und Informationen über eine virtuelle Tastatur eingeben.

Empfehlung

Im OSWorld-Benchmark, der die Fähigkeit von KI-Modellen zur menschenähnlichen Computernutzung bewertet, erreichte Claude 3.5 Sonnet in der Kategorie "Nur Screenshots" 14,9 Prozent - deutlich mehr als das nächstbeste KI-System mit 7,8 Prozent, aber weit entfernt von menschlichen Fähigkeiten.

Anthropic räumt ein, dass Claudes derzeitige Fähigkeit zur Computernutzung noch unvollkommen ist. Einige für Menschen mühelose Aktionen wie Scrollen, Ziehen oder Zoomen stellten für Claude derzeit noch Herausforderungen dar. Das Unternehmen empfiehlt Entwicklern daher, zunächst mit risikoarmen Aufgaben zu beginnen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic stellt verbesserte Versionen seiner KI-Modelle Claude 3.5 Sonnet und Claude 3.5 Haiku vor. Beide Modelle erzielten deutliche Leistungssteigerungen, insbesondere bei Programmieraufgaben.
  • Das neue Claude 3.5 Haiku-Modell soll in vielen Intelligenzbenchmarks die Leistung des bisherigen Spitzenmodells Claude 3 Opus übertreffen, und das bei gleichen Kosten und ähnlicher Geschwindigkeit wie der Vorgänger Claude 3 Haiku.
  • Anthropic führt eine neue Funktion zur KI-gesteuerten Computernutzung ein. Eine API ermöglicht es Claude, Computeroberflächen wahrzunehmen, mit ihnen zu interagieren und Anweisungen in konkrete Computerbefehle umzusetzen. Von menschlichen Fähigkeiten ist das System jedoch noch weit entfernt.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!