Nach Update: OpenAIs GPT-4 liegt wieder vor Claude 3 Opus in wichtigem Benchmark

12. April 2024 Matthias Bastian

Update vom 12. April 2024:

Die kürzlich veröffentlichte neue Variante GPT-4 von OpenAI hat sich erneut an die Spitze der Chatbot-Arena gesetzt. Laut dem Herausgeber des Benchmarks zeigt GPT-4 insbesondere bei der Codierung und den Schlussfolgerungen eine überlegene Leistung. Bei Eingaben mit mehr als 500 Token (Longer Query Arena) liege jedoch Claude 3 Opus weiterhin vorn.

Ursprünglicher Artikel vom 27. März 2024:

Anthropics Claude 3 löst OpenAIs GPT-4 als bestes Sprachmodell ab

Der KI-Assistent Claude 3 Opus von Anthropic hat erstmals OpenAIs GPT-4 von der Spitze der Chatbot-Rangliste verdrängt.

Laut dem Chatbot Arena Leaderboard hat Anthropics Chatbot Claude 3 Opus erstmals OpenAIs GPT-4 überholt. Claude 3 Opus führt nun die Rangliste an, die auf der Bewertung der Chatbot-Fähigkeiten durch Menschen basiert. GPT-4 wurde auf den zweiten Platz verwiesen.

Die "Chatbot Arena" ist eine Benchmark-Plattform, die von der Large Model System Organization (LMSYS) ins Leben gerufen wurde, um die Leistung großer Sprachmodelle zu vergleichen.

In der Arena treten verschiedene Modelle in anonymen, zufällig ausgewählten Duellen gegeneinander an, wobei die Nutzerinnen und Nutzer die Modelle bewerten und für ihre bevorzugte Antwort abstimmen. Der Benchmark basiert somit auf den Präferenzen der Nutzerinnen und Nutzer, was ihn besonders wertvoll macht.

Erstmals übertrifft ein anderes Modell GPT-4

Es ist das erste Mal seit der Veröffentlichung von GPT-4 vor rund einem Jahr, dass ein anderes Sprachmodell die Beliebtheit von GPT-4 in der Chatbot-Arena übertrifft.

Noch beeindruckender ist, dass auch das wesentlich preiswertere Modell Anthropic Haiku an GPT-4 heranreichen soll. Die Leistung von Haiku kann insbesondere bei der Textgenerierung durch zahlreiche Beispiele deutlich verbessert werden, das Modell ist etwa zehnmal günstiger als GPT-4 und liegt auf dem Niveau der ursprünglichen GPT-4 Version 0314 vom März 2023.

Mit der Ablösung von GPT-4 durch Claude 3 Opus an der Spitze der Chatbot-Rangliste gerät die Vormachtstellung von OpenAI ins Wanken, auch wenn OpenAI mit seinen Modellen weiterhin den Markt durchdringt, insbesondere mit ChatGPT für Endnutzer.

Bei der Nutzung über die Programmierschnittstelle (API) dürfte Anthropic jedoch derzeit stark aufholen. Die Unruhen in der OpenAI-Führung haben Anthropic bereits in die Karten gespielt und Unternehmen gezeigt, dass sie nicht von einem einzelnen KI-Hersteller abhängig sein wollen.

OpenAI dürfte bald kontern: Leaks weisen darauf hin, dass das Unternehmen schon im Sommer ein neues, leistungsfähigeres Modell vorstellen könnte, das GPT-4.5 oder GPT-5 sein könnte. OpenAI-Chef Sam Altman hat bereits bestätigt, dass seine Firma in diesem Jahr noch ein "erstaunliches" KI-Modell auf den Markt bringen will.

Quellen:

Chatbot Arena Leaderboard