- Das neue Haiku-Modell ist verfügbar
Update vom 4. November 2024:
Anthropic hat sein neues KI-Modell Claude 3.5 Haiku veröffentlicht, das ab sofort über die Anthropic API, Amazon Bedrock und Google Clouds Vertex AI verfügbar ist.
Das Modell zeichnet sich laut Anthropci durch verbesserte Fähigkeiten in den Bereichen Code, Werkzeugnutzung und logisches Denken aus und übertrifft in vielen Benchmarks das größte Modell der Vorgängergeneration, Claude 3 Opus, das circa 15-mal teurer ist. Anthropic empfiehlt das Modell für Aufgaben, bei denen Geschwindigkeit essenziell ist, etwa bei Chatbots für Endnutzer.
Die Preise beginnen bei 1 Dollar pro Million Eingabetokens und 5 Dollar pro Million Ausgabetokens, liegen also etwa um den Faktor vier über dem ersten Haiku-Modell. Das alte Model ist weiter verfügbar und bietet zudem Vision-Fähigkeiten, die im neuen Haiku bisher nicht vorhanden sind.
Die Kosten können wie bei den anderen Anthropic-Modellen über Prompt Caching und Stapelverarbeitung reduziert werden.
Ursprünglicher Artikel vom 22. Oktober 2024:
Anthropic stellt neue Claude-Modelle mit Computer-Nutzung vor
Anthropic stellt ein verbessertes Claude 3.5 Sonnet und ein neues Claude 3.5 Haiku vor. Außerdem führt das Unternehmen ein neues Feature ein: KI-gesteuerte Computernutzung.
Bei Programmieraufgaben konnte Claude 3.5 Sonnet seine Leistung im SWE-bench Verified Test von 33,4 Prozent auf 49,0 Prozent steigern. Damit übertrifft es laut Anthropic alle öffentlich verfügbaren Modelle, einschließlich spezialisierter Systeme für agentenbasiertes Programmieren.
Auch im TAU-Bench, einem Test für den Einsatz agentenbasierter Werkzeuge, konnte das Modell deutliche Fortschritte erzielen. Im Einzelhandelsbereich stieg die Leistung von 62,6 Prozent auf 69,2 Prozent, im anspruchsvolleren Luftfahrtbereich von 36,0 Prozent auf 46,0 Prozent.
Neues Haiku-Modell soll bisheriges Spitzenmodell Opus in den Schatten stellen
Neben den Verbesserungen an Sonnet präsentiert Anthropic ein neues Claude 3.5 Haiku-Modell. Dieses soll laut Unternehmensangaben die Leistung des bisherigen Spitzenmodells Claude 3 Opus in vielen Intelligenzbenchmarks übertreffen - und das bei gleichen Kosten und ähnlicher Geschwindigkeit wie das Vorgängermodell Claude 3 Haiku. Ein mögliches neues Opus-Modell erwähnt Anthropic in der heutigen Ankündigung nicht.
Besonders beeindruckend sei die Leistung von Claude 3.5 Haiku bei Programmieraufgaben: Im SWE-bench Verified-Test erreicht es 40,6 Prozent und übertrifft damit nach Anthropics Aussage viele Agenten, die auf öffentlich verfügbaren State-of-the-Art-Modellen basieren.
Sonnet 3.5 ist bis April 2024 aktuell informiert, das neue Haiku-Modell hat Wissen bis zum Juli 2024. Haiku soll Ende des Monats erscheinen.
KI-gesteuerte Computernutzung als Meilenstein
Als besonders innovativ bezeichnet Anthropic die neue Funktion zur Computernutzung. Statt spezifische Tools für einzelne Aufgaben zu entwickeln, verfolgt das Unternehmen einen breiteren Ansatz: Claude soll allgemeine Computerfähigkeiten erlernen, um eine Vielzahl von Standard-Tools und Softwareprogrammen nutzen zu können, die ursprünglich für Menschen konzipiert wurden.
Zu diesem Zweck hat Anthropic eine API entwickelt, die es Claude ermöglicht, Computeroberflächen wahrzunehmen und mit ihnen zu interagieren. Entwickler können diese API integrieren, um Claude in die Lage zu versetzen, Anweisungen wie "Nutze Daten von meinem Computer und aus dem Internet, um dieses Formular auszufüllen" in konkrete Computerbefehle zu übersetzen.
Das System kann den Mauszeiger auf dem Bildschirm bewegen, an den hoffentlich richtigen Stellen klicken und Informationen über eine virtuelle Tastatur eingeben.
Im OSWorld-Benchmark, der die Fähigkeit von KI-Modellen zur menschenähnlichen Computernutzung bewertet, erreichte Claude 3.5 Sonnet in der Kategorie "Nur Screenshots" 14,9 Prozent - deutlich mehr als das nächstbeste KI-System mit 7,8 Prozent, aber weit entfernt von menschlichen Fähigkeiten.
Anthropic räumt ein, dass Claudes derzeitige Fähigkeit zur Computernutzung noch unvollkommen ist. Einige für Menschen mühelose Aktionen wie Scrollen, Ziehen oder Zoomen stellten für Claude derzeit noch Herausforderungen dar. Das Unternehmen empfiehlt Entwicklern daher, zunächst mit risikoarmen Aufgaben zu beginnen.