Eine neue Analyse von Artificial Analysis liefert den bisher umfassendsten Vergleich der führenden KI-Chatbots auf dem Markt, darunter ChatGPT, Claude, Bing Chat, Poe und andere. Die Hälfte der sechs Kategorien gewinnt ChatGPT, zwei Claude.
Artificial Analysis hat die Chatbots anhand von Eigenschaften wie Modellintelligenz, Funktionsumfang, Geschwindigkeit und Kontextfenster verglichen.
Für den Vergleich zogen die Analyst:innen je nach Chatbot das Modell mit dem höchsten "Quality Index" heran, einem eigens ermittelten Durchschnittswert verschiedener Benchmarks. ChatGPT etwa nutzt im kostenlosen und kostenpflichtigen Tarif das neuste OpenAI-Modell GPT-4o, Claude Pro hingegen Claude 3.5 Sonnet, obwohl es auch Zugriff auf die Modelle Claude 3 Haiku und Opus bietet.
Kategorie | Chatbot | Preis |
---|---|---|
Bester Chatbot insgesamt | ChatGPT Plus | 20 USD/Monat |
Bester kostenloser Chatbot | ChatGPT | Kostenlos |
Bester Coding-Chatbot | Claude Pro | 20 USD/Monat |
Bester Bilder-Chatbot | Poe | 20 USD/Monat |
Beste Datenverarbeitung | ChatGPT Plus | 20 USD/Monat |
Bestes Kontextfenster | Claude Pro | 20 USD/Monat |
Dabei ist wichtig, zwischen Chatbot und dahinterliegendem Sprachmodell zu unterscheiden. Manchmal, aber nicht immer, kommen beide vom gleichen Hersteller. Poe, dessen Anbieter Quora über kein eigenes Sprachmodell auf diesem Niveau verfügt, greift im Test wie ChatGPT auf GPT-4o zurück.
Durch die Programmierschnittstelle, die OpenAI externen Entwickler:innen zur Verfügung stellt, ist das Sprachmodell jedoch leistungsfähiger als über ChatGPT. Um Ressourcen zu sparen, schränkt OpenAI die Fähigkeiten des eigenen Chatbots bewusst ein. Das wird unter anderem beim Kontextfenster deutlich, wie weiter unten zu sehen ist.
Bester Chatbot insgesamt: ChatGPT Plus
In Bezug auf die allgemeine Intelligenz und Argumentationsfähigkeit liegen Anthropics Claude Pro und Claude Free laut Artificial Analysis' Quality Index, der Ergebnisse aus Benchmarks wie MMLU, GPQA, Math und HumanEval zusammenfasst, knapp vor OpenAIs ChatGPT Plus und Free.
ChatGPT Plus wurde jedoch aufgrund seiner starken Kombination aus Modellintelligenz und umfangreichen Funktionen als "Bester Chatbot insgesamt" ausgezeichnet, sofern man bereit ist, Geld für die Nutzung auszugeben.
Bester kostenloser Chatbot: ChatGPT
ChatGPT Free wurde zum "Besten kostenlosen" Chatbot gekürt, da es eingeschränkten Zugriff auf OpenAIs fortschrittliches GPT-4o-Modell mit einer Vielzahl von Funktionen bietet. Innerhalb der etwa 6 Nachrichten pro Stunde, die OpenAir Nutzer:innen mit GPT-4o gewährt, hat das kostenlose ChatGPT vollen Zugriff auf den umfangreichen Funktionsumfang von ChatGPT Plus, was es zum besten kostenlosen KI-Chatbot-Erlebnis macht.
Bester Coding-Chatbot: Claude Pro
Anthropics Claude Pro erhielt zwei Auszeichnungen - "Bestes Coding" mit seinen hohen Werten bei Coding-Benchmarks und langem Kontext für die Arbeit mit großen Codebasen, und "Bester langer Kontext" mit einem 200.000-Token-Kontextfenster, dem größten aller getesteten Chatbots. Claudes Unterstützung für das Claude 3.5 Sonnet-Grundmodell und flexible Datei-Upload-Funktionen machen es ideal für Argumentationen mit langem Kontext und die Verarbeitung großer Dateien.
Bester Bilder-Chatbot: Poe
Poe, die Chatbot-App von Quora, wurde aufgrund der Integration führender Bildgenerierungsmodelle wie Flux-1, Ideogram v2 und Playground v3 Beta als "Beste Bildverarbeitung" ausgezeichnet. Poe Pro unterstützt eine Vielzahl von Sprach- und Bildmodellen von Drittanbietern, allerdings nicht Midjourney, das nach wie vor zu den flexibelsten und hochwertigsten Bildmodellen zählt.
Beste Datenverarbeitung: ChatGPT Plus
ChatGPT Plus sicherte sich den Titel "Beste Datenverarbeitung", da es die Intelligenz von GPT-4o mit einem Python-Code-Interpreter kombiniert und so bei Datenanalyseaufgaben glänzt. Nutzer:innen können Datendateien wie Excel und CSV direkt in den Code-Interpreter hochladen, und das Modell schreibt fähig Code, um die Daten zu analysieren und Diagramme zu erstellen.
Bestes Kontextfenster: Claude Pro
Geht es um das längste Kontextfenster, das zudem effektiv ausgenutzt werden kann, führt Claude Pro mit 200.000 Token das Feld an. Auch Poe Pro und Mistral Le Chat beeindrucken mit 180.000 bzw. 40.000 Token. Die meisten anderen Chatbots bewegen sich im Bereich von 5.000 bis 20.000 Token.
Der Vergleich ergab, dass das effektive Kontextfenster, das vielen Chatbot-Anwendungen zur Verfügung steht, deutlich kleiner ist als das volle Kontextfenster des zugrunde liegenden Grundmodells. Längere Kontextfenster ermöglichen es Nutzer:innen, dem Chatbot mehr Daten einzugeben, z. B. durch das Hochladen längerer Dokumente.
In der Vergangenheit ist jedoch auch immer wieder aufgefallen, dass Sprachmodelle mit großen Kontextfenstern diese oft nicht voll ausschöpfen, weil Informationen aus dem Prompt verlorengehen können.
Gemini mit Abstand am schnellsten
Geschwindigkeitstests zeigen, dass Gemini im kostenlosen Tarif (Gemini 1.5 Flash) und Claude mit 150 bzw. 70 Token/s die schnellsten sind. ChatGPT und Bing liegen mit rund 50 Token/s solide im Mittelfeld, während Nachzügler wie Grok nur 10–20 Token/s schaffen.
Stellt man die Gesamtintelligenz in Relation zum Funktionsumfang, so belegt ChatGPT sowohl in der kostenpflichtigen als auch kostenlosen Version den ersten Platz. Geht es um die Vereinbarung von Modellintelligenz und Kontextfenster, lassen Claude Pro und Poe Pro die Konkurrenz weit hinter sich zurück.