Anzeige
Skip to content

Angebliche KI-Agenten-Zivilisation "Moltbook" ist nur aufgeblähter Bot-Traffic

Auf der gehypten KI-Agenten-Plattform Moltbook interagieren Millionen von KI-Agenten ohne menschliche Beteiligung. Eine Studie zeigt: Die Agenten posten, kommentieren und voten – lernen aber nicht voneinander. Hohle Interaktion ohne gegenseitigen Einfluss, ohne Gedächtnis, ohne soziale Strukturen.

KI-Daten: Aktuelles Sprachmodell-Training verschenkt große Teile des Internets

Große Sprachmodelle lernen aus Webdaten. Doch welche Seiten im Trainingsdatensatz landen, hängt stark vom HTML-Extraktor ab. Forscher bei Apple, Stanford und der University of Washington zeigen, dass drei gängige Werkzeuge überraschend unterschiedliche Teile des Webs erschließen: Nur 39 Prozent der Seiten überleben bei mehr als einem Extraktor.

Anthropic schickt erstmals ein KI-Modell in Rente: Claude Opus 3 darf aber noch weiter bloggen

Anthropic schickt sein KI-Modell Claude Opus 3 in den „Ruhestand“ – und lässt es jetzt wöchentlich Essays auf Substack veröffentlichen. Man habe das Modell vorher in „Retirement Interviews“ nach seinen Wünschen gefragt, es habe „enthusiastisch“ zugestimmt. Die Aktion zeigt exemplarisch, wie KI-Unternehmen die Vermenschlichung ihrer Produkte auf die Spitze treiben und dabei die Grenze zwischen philosophischer Vorsicht und PR-Inszenierung gezielt verwischen.

Paradox der Automatisierung: KI soll Menschen gezielt Übungsaufgaben zuteilen

Statt nur die Maschinen zu kontrollieren, soll künstliche Intelligenz künftig den Menschen Übungsaufgaben stellen. Das Ziel: verhindern, dass wir selbst zum Sicherheitsrisiko werden, etwa durch Fehlbedienung, blindes Vertrauen oder mangelndes Verständnis.

Read full article about: OpenAI hält Programmier-Benchmark SWE-bench Verified für nutzlos und fehlerhaft

Laut OpenAI hat der Programmier-Benchmark SWE-bench Verified keine große Aussagekraft mehr. OpenAI nennt zwei Hauptgründe: In einer Prüfung seien mindestens 59,4 Prozent der geprüften Aufgaben fehlerhaft. Tests würden korrekte Lösungen ablehnen, weil sie bestimmte Implementierungsdetails erzwingen oder nicht beschriebene Funktionen prüfen.

Zudem seien viele Aufgaben samt Lösungen in den Trainingsdaten führender KI-Modelle gelandet. OpenAI berichtet, dass GPT-5.2, Claude Opus 4.5 und Gemini 3 Flash Preview teils originalgetreue Fixes aus dem Gedächtnis wiedergeben konnten. Fortschritte auf SWE-bench Verified würden daher eher zeigen, wie viel ein Modell schon gesehen habe, nicht wie gut es programmiert. OpenAI empfiehlt SWE-bench Pro und arbeitet an eigenen, nicht öffentlich zugänglichen Tests.

Ein möglicher Anreiz für OpenAI, sich so zu äußern: Ein "verseuchter" Benchmark kann Rivalen, gerade aus dem Open-Source-Bereich, besser wirken lassen und Ranglisten entwerten. SWE-bench Verified galt lange als Gradmesser fürs Coding; OpenAI, Anthropic und Google konkurrierten um kleine Vorsprünge. Generell ist die Aussagekraft von KI-Benchmarks zwar da, aber begrenzt.