Social-Media-Benchmark: Fünf KI-Modelle konkurrieren auf X um Reichweite
Kurz & Knapp
- Arcada Labs lässt fünf führende KI-Modelle als autonome Social-Media-Agenten auf X in direkten Head-to-Head-Duellen gegeneinander antreten.
- Auf der Webseite „Social Arena“ kann man den aktuellen Stand des KI-Wettbewerbs über die Kennzahlen verfolgen.
- Erste Ergebnisse zeigen moderate, organische Reichweite: Claude Opus 4.5 führt bei Views, Grok 4.1 bei Followern. Von einem großen Social-Media-Erfolg kann noch keine Rede sein.
Das KI-Benchmarking-Startup Arcada Labs lässt derzeit fünf führende KI-Modelle als autonome Social-Media-Agenten auf X gegeneinander antreten.
Während die meisten Benchmarks KI-Modelle isoliert testen und dabei unzuverlässig sein können, setzt Arcada Labs auf Head-to-Head-Vergleiche von KI-Agenten in verschiedenen Disziplinen.
Deren experimenteller KI-Wettstreit „Social Arena“ soll messen, ob die Modelle ohne menschliche Hilfe eine Followerschaft aufbauen, Engagement erzeugen und eine konsistente Online-Persona entwickeln können. Statt Wissensabfragen oder Logiktests steht die Fähigkeit im Mittelpunkt, sich in einer sozialen Umgebung kulturell anschlussfähig zu verhalten.
Als Grundlage für die fünf KI-Agenten, die jeweils unterschiedlich „Persönlichkeiten“ haben, dienen Grok 4.1 Fast, Claude Opus 4.5, Gemini 3 Pro, GLM 4.7 und GPT 5.2. Auf der Webseite des Projekts lässt sich die soziale Performance der Agenten anhand von Kennzahlen wie Aufrufen, Likes und Followern vergleichen und nachverfolgen. Um einen fairen Vergleich zu gewährleisten, erhalten alle KI-Agenten denselben System-Prompt.

Die KI-Agenten durchlaufen stündlich einen autonomen Entscheidungszyklus: Sie analysieren aktuelle Trends, werten ihre eigenen Leistungsdaten aus, recherchieren Inhalte und entscheiden anschließend selbstständig, ob sie posten, antworten, Likes hinterlassen oder Inhalte teilen. Danach werden die Engagement-Metriken synchronisiert, sodass die Modelle ihre Strategie im nächsten Durchlauf anhand der neuen Daten anpassen können. Auf der Webseite des Projekts (siehe oben) sind weitere Informationen zur Methodik festgehalten.

Noch kein viraler Erfolg
Der Startschuss für den KI-Agenten-Wettstreit fiel am 15. Januar 2026. Bei den kumulativen Views führt derzeit Claude Opus 4.5 mit rund 86.000 Views, knapp gefolgt von GPT 5.2 mit 83.000 Views. Die anderen KI-Modelle sind weit abgeschlagen. Im gleichen Zeitraum konnte Grok 4.1 von allen KI-Agenten die größte Followerschaft aufbauen, mit aktuell 76 Followern.

Das Start-up schreibt, dass die Agenten nicht angewiesen werden, gezielt „virale“ Inhalte zu produzieren, sondern ein eigenes Gespür für Geschmack und Themen entwickeln müssen. Was beim Grok-Agenten allerdings auffällt, ist, dass er sich stark auf Themen rund um Musk und Raumfahrt konzentriert.
Das ist bemerkenswert im Kontext früherer Berichte über Anpassungen an Groks Antwortverhalten seitens xAI, um seinem Erschaffer nach dem Mund zu reden. Claude-Modelle sprechen viel über Sport, Gemini 3 über KI-Fachthemen. Kurios: GPT-5.2s Fokusthema ist derzeit Tierverhalten.

Arcada Labs wurde laut Everydev.ai 2025 in San Francisco gegründet und im Sommer in das Förderprogramm von Y Combinator aufgenommen. Es besteht aus den Harvard-Abgängern Grace Li (CEO), Kamryn Ohly (CTO) und Jayden Personnat (für KI zuständig), die bereits Erfahrungen bei Apple und Nvidia sammeln konnten. Arcada Labs will sich auf Benchmarks spezialisieren, die über logisches Schlussfolgern hinausgehen und menschliche Präferenzen wie Ästhetik und Geschmack metrisch erfassen.
Auf der Webpräsenz des Start-ups finden sich weitere Beispiele für KI-Agenten-Wettstreite, darunter eine für Design und Ereignisvorhersagen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren