Mitten in der OpenAI-Krise stellt der Konkurrent Anthropic sein neues Sprachmodell und Chatbot Claude 2.1 vor. Es hat ein doppelt so großes Kontextfenster wie sein Vorgänger und soll weniger Fehler machen.
Anthropics Claude 2.1 übertrifft mit einem 200K Kontextfenster das große 100K Kontextfenster seines Vorgängers, der jedoch Anfang November von GPT-4 Turbo mit einem 128K Kontextfenster überholt wurde. Mit dem 200K-Kontextfenster ist Anthropic erneut der Anbieter mit dem aufmerksamsten KI-Modell auf dem Markt.
Das Kontextfenster beschreibt, wie viele Inhalte das Sprachmodell bei der Generierung einer Antwort gleichzeitig berücksichtigen kann. Im Fall von Claude 2 sind das laut Anthropic etwa 150.000 Wörter oder mehr als 500 Seiten Material.
Die Ilias chatten
Nutzer sollen ganze Codebasen, Finanzberichte oder auch umfangreiche literarische Werke wie die Ilias oder die Odyssee hochladen und vom Modell verarbeiten lassen können.
Claude soll dabei Aufgaben wie Zusammenfassungen, Fragen und Antworten, Trendvorhersagen und den Vergleich mehrerer Dokumente durchführen können. Allerdings kann die Generierung einer Antwort mehrere Minuten dauern - nichts im Vergleich zu Stunden menschlicher Arbeit, betont Anthropic.
In der Praxis ist der Nutzen dieser großen Kontextfenster jedoch noch begrenzt. Tests zeigen, dass große Sprachmodelle Inhalte weniger zuverlässig abrufen können, wenn sie weiter hinten und eher in der Mitte des Inputs stehen, das sogenannte "Lost in the Middle"-Phänomen. Je größer der Input, desto höher ist das Fehlerrisiko.
In der Praxis heißt das, dass man zwar große Dokumente eingeben kann, aber beispielsweise bei Analysen damit rechnen muss, dass Teile des Dokuments nicht berücksichtigt werden. Am zuverlässigsten funktioniert das Auffinden von Informationen am Anfang der Dokumente, das belegen auch Benchmarks von GPT-4 Turbo.
Wie gut oder schlecht Claude 2.1 hier ist, müssen unabhängige Messungen zeigen. Anthropic verspricht jedenfalls deutliche Verbesserungen gegenüber dem Vorgänger, insbesondere bei längeren Kontexten.
Das Modell zeigt eine Reduktion der falschen Antworten um etwa 30 Prozent und eine drei- bis viermal geringere Wahrscheinlichkeit, dass ein Dokument fälschlicherweise als Beweis für eine bestimmte Behauptung verwendet wird. Wenn das Modell unsicher ist, verwirft es fast doppelt so viele Antworten und gibt Unsicherheit zu ("Ich bin nicht sicher, was die fünftgrößte Stadt in Bolivien ist") als sein Vorgänger.
Claude 2.1 soll ehrlicher sein und Inhalte besser verstehen
Laut Anthropic hat Claude 2.1 im Vergleich zu seinem Vorgänger Claude 2.0 eine um den Faktor zwei reduzierte Halluzinationsrate. Unternehmen könnten so leistungsstarke KI-Anwendungen mit mehr Vertrauen und Zuverlässigkeit entwickeln.
Mit dem neuen Modell führt Anthropic auch eine Beta-Funktion namens Tool Usage ein, die es Claude ermöglicht, sich in die bestehenden Prozesse, Produkte und APIs der Anwender zu integrieren. Claude kann nun von Entwicklern definierte Funktionen oder APIs orchestrieren, Webquellen durchsuchen und Informationen aus privaten Wissensdatenbanken abrufen.
Die Entwicklerkonsole wurde für Claude-API-Benutzer vereinfacht, um das Testen neuer Aufrufe zu erleichtern und den Lernprozess zu beschleunigen. Die neue Workbench ermöglicht es Entwicklern, in einer spielerischen Umgebung an Prompts zu arbeiten und auf neue Modelleinstellungen zuzugreifen, um das Verhalten von Claude zu optimieren.
Claude 2.1 ist ab sofort in der API verfügbar und wird von der Chat-Schnittstelle auf claude.ai für kostenlose und Pro-Tarife unterstützt. Das 200K Token Kontextfenster ist für Claude Pro Nutzer reserviert. Claude ist derzeit in 95 Ländern verfügbar, allerdings nicht in der EU.
Die Präsentation von Claude 2.1 gerade jetzt könnte ein gezielter Schachzug sein: Der Anthropic-Konkurrent OpenAI steckt in einer tiefen Krise und der heftig kritisierte OpenAI-Vorstand soll sogar beim Anthropic-CEO wegen einer Fusion angefragt haben. Zudem sollen sich mehr als 100 Kunden von OpenAI nach den Angeboten von Anthropic erkundigt haben.