Paradox der Automatisierung: KI soll Menschen gezielt Übungsaufgaben zuteilen
Statt nur die Maschinen zu kontrollieren, soll künstliche Intelligenz künftig den Menschen Übungsaufgaben stellen. Das Ziel: verhindern, dass wir selbst zum Sicherheitsrisiko werden, etwa durch Fehlbedienung, blindes Vertrauen oder mangelndes Verständnis.
Laut OpenAI hat der Programmier-Benchmark SWE-bench Verified keine große Aussagekraft mehr. OpenAI nennt zwei Hauptgründe: In einer Prüfung seien mindestens 59,4 Prozent der geprüften Aufgaben fehlerhaft. Tests würden korrekte Lösungen ablehnen, weil sie bestimmte Implementierungsdetails erzwingen oder nicht beschriebene Funktionen prüfen.
Zudem seien viele Aufgaben samt Lösungen in den Trainingsdaten führender KI-Modelle gelandet. OpenAI berichtet, dass GPT-5.2, Claude Opus 4.5 und Gemini 3 Flash Preview teils originalgetreue Fixes aus dem Gedächtnis wiedergeben konnten. Fortschritte auf SWE-bench Verified würden daher eher zeigen, wie viel ein Modell schon gesehen habe, nicht wie gut es programmiert. OpenAI empfiehlt SWE-bench Pro und arbeitet an eigenen, nicht öffentlich zugänglichen Tests.
Ein möglicher Anreiz für OpenAI, sich so zu äußern: Ein "verseuchter" Benchmark kann Rivalen, gerade aus dem Open-Source-Bereich, besser wirken lassen und Ranglisten entwerten. SWE-bench Verified galt lange als Gradmesser fürs Coding; OpenAI, Anthropic und Google konkurrierten um kleine Vorsprünge. Generell ist die Aussagekraft von KI-Benchmarks zwar da, aber begrenzt.
Nvidias KI-Forschungsteam hat DreamDojo vorgestellt, ein Open-Source-Weltmodell für Robotik. Es nimmt Motorsteuerungsbefehle entgegen und erzeugt daraus eine simulierte Zukunft in Bildern, ohne klassische 3D-Engine oder manuell erstellte Physik. Jim Fan, Director of AI bei NVIDIA, spricht von "Simulation 2.0".
Das Kernproblem: Roboter in der echten Welt zu trainieren, ist langsam, teuer und riskant – begrenzt durch Zeit, Verschleiß, Sicherheit und ständiges Zurücksetzen. DreamDojo soll das lösen, indem es auf 44.000 Stunden menschlicher Ego-Perspektiv-Videos vortrainiert wurde. Sogenannte "latente Aktionen" übersetzen dabei menschliche Bewegungen in ein hardwareunabhängiges Format. So kann das Modell aus menschlichen Videos lernen, ohne je einen Roboter gesehen zu haben. In einem zweiten Schritt wird es dann auf die spezifische Mechanik eines konkreten Roboters zugeschnitten.
DreamDojo läuft in Echtzeit mit zehn Bildern pro Sekunde und ermöglicht VR-Fernsteuerung in einer simulierten Umgebung, Bewertung von Roboter-Strategien und vorausschauende Planung direkt im Weltmodell. Laut Jim Fan sind alle Gewichte, Code und Daten frei verfügbar. Details gibt es auf der Projektseite und im Paper. DreamDojo basiert auf Nvidia Cosmos.
KI-Agenten sind laut Anthropic bislang nur im Coding einigermaßen angekommen
KI-Agenten sollen bald den Arbeitsalltag revolutionieren. Anthropics eigene Daten zeigen: Bislang ist das fast nur im Software-Engineering der Fall. Und selbst dort lassen die Nutzer die Agenten längst nicht so autonom arbeiten, wie es technisch möglich wäre.
Anthropic erweitert Claude Code auf dem Desktop um Funktionen, die den Entwicklungsprozess stärker automatisieren. Die KI kann nun Entwicklungsserver starten und laufende Web-Apps direkt in der Oberfläche anzeigen, Fehler erkennen und selbstständig beheben.
Neu ist auch eine Code-Review-Funktion, die Änderungen prüft und Kommentare direkt in der Diff-Ansicht hinterlässt. Für GitHub-Projekte überwacht Claude Code Pull Requests im Hintergrund, behebt CI-Fehler automatisch und kann PRs nach bestandenen Tests eigenständig zusammenführen. So können Entwickler an neuen Aufgaben arbeiten, während Claude Code offene PRs im Hintergrund fertigstellt. Sitzungen lassen sich zwischen CLI, Desktop, Web und Mobilgerät fortsetzen. Die Updates sind ab sofort verfügbar.
Größte Seed-Finanzierung eines europäischen Start-ups: Langjähriger Deepmind-Forscher David Silver gründet KI-Start-up
Der langjährige Deepmind-Forscher David Silver sammelt eine Milliarde Dollar für sein Londoner KI-Start-up Ineffable Intelligence ein. Er setzt auf Reinforcement Learning in Simulationen und will eine „endlos lernende Superintelligenz“ bauen. Die Seed-Runde wäre die größte in der Geschichte europäischer Start-ups.
Chinas KI-Wettlauf: Alibaba stellt Qwen3.5 als kostenloses Open-Weight-Modell vor
Chinesische KI-Labore setzen ihre Modelloffensive fort – heute ist es Alibabas Qwen3.5, das mit einer hybriden Architektur aus linearer Attention und Mixture-of-Experts bei nur 17 Milliarden aktiven Parametern an die Leistung westlicher Spitzenmodelle heranreichen will. Natürlich als Open Weight.