Ein neuer Härtetest für multimodale KI-Modelle offenbart fundamentale Schwächen: Der Benchmark „WorldVQA“ prüft, ob KI-Modelle visuelle Objekte tatsächlich erkennen. Selbst Spitzenreiter wie Gemini 3 Pro scheitern an der 50-Prozent-Marke und neigen zu massiver Selbstüberschätzung, wenn sie mit spezifischen Details statt generischen Begriffen konfrontiert werden.
Claude Opus 4.6 ist das neue beste KI-Modell. Zumindest, bis Artificial Analysis auch OpenAIs Codex 5.3 gebenchmarkt hat, das im Coding vorn liegen dürfte. Für den Moment jedenfalls belegt Anthropics neues Modell Platz eins im Artificial Analysis Intelligence Index, der zehn Tests zu Coding, Agenten-Aufgaben und wissenschaftlichem Denken zusammenfasst. Opus 4.6 führt in drei Kategorien: agentenbasierte Arbeitsaufgaben, Terminal-Coding und Physik-Forschungsprobleme.
Artificial Analysis
Der komplette Testlauf kostete 2.486 Dollar, mehr als die 2.304 Dollar für GPT-5.2 mit maximaler Reasoning-Leistung. Opus 4.6 verbrauchte dabei rund 58 Millionen Ausgabe-Tokens, doppelt so viele wie Opus 4.5, aber deutlich weniger als die 130 Millionen von GPT-5.2. Der höhere Gesamtpreis ergibt sich aus Anthropics Token-Preisen von 5 bzw. 25 Dollar pro Million Input/Output-Tokens. Opus 4.6 ist in Claude.ai-Apps und über Anthropics API, Google Vertex, AWS Bedrock und Microsoft Azure verfügbar.
Anthropic hat einen neuen Schnellmodus für Claude, aber der Preis hat es in sich: Der "Fast Mode" für Opus 4.6 kostet bis zu sechsmal so viel wie der Standardpreis. Dafür soll das Modell laut Anthropic 2,5-mal schneller antworten, bei gleicher Qualität. Der Modus eigne sich primär für Live-Debugging, schnelle Code-Iterationen und zeitkritische Tasks. Der Standardmodus ist laut Anthropic weiter besser für lange autonome Aufgaben, Batch-Verarbeitung/CI-CD-Pipelines und kosten-sensitive Workloads.
Standard
Fast Mode
Input ≤ 200K Tokens
$5 / MTok
$30 / MTok
Input > 200K Tokens
$10 / MTok
$60 / MTok
Output ≤ 200K Tokens
$25 / MTok
$150 / MTok
Output > 200K Tokens
$37,50 / MTok
$225 / MTok
Fast Mode lässt sich in Claude Code mit /fast aktivieren und ist auch bei Cursor, GitHub Copilot, Figma und Windsurf verfügbar. Bis zum 16. Februar gilt ein Einführungsrabatt von 50 Prozent. Fast Mode ist nicht nutzbar über Amazon Bedrock, Google Vertex AI oder Microsoft Azure Foundry. Anthropic plant, den API-Zugang auszuweiten: Interessierte können sich auf eine Warteliste eintragen.
Ein Modell, viele Stimmen: Reasoning-KI simuliert interne Expertenteams – und wird dadurch präziser
Wenn KI-Modelle nachdenken, streiten in ihrem Inneren verschiedene Stimmen miteinander: manche extravertiert, manche neurotisch, alle gewissenhaft. Forschende zeigen, dass dieses simulierte Teamwork die Leistung messbar verbessert.
KI-Integration in Unternehmen schafft man nicht mit ein paar ChatGPT-Accounts. OpenAI stellt hunderte neue Mitarbeiter für sein technisches Beratungsteam ein, berichtet The Information. Diese Ingenieure passen OpenAIs Modelle mit Kundendaten an und entwickeln KI-Agenten. Derzeit beschäftigt OpenAI etwa 60 solcher Ingenieure plus über 200 im technischen Support. Auch Anthropic arbeitet direkt mit Kunden zusammen.
Das Problem: KI-Agenten funktionieren ohne Anpassung oft nicht zuverlässig. Der Einzelhändler Fnac testete Modelle von OpenAI und Google für den Kundensupport – die Agenten verwechselten Seriennummern. Erst nach Unterstützung durch AI21 Labs funktionierte das System.
OpenAIs neue agentische Enterprise-Plattform "Frontier" zeigt die Komplexität der KI-Integration: Die Technologie muss auf bestehende Unternehmenssysteme ("Systems of Record") aufsetzen, Geschäftskontext verstehen, Agenten ausführen und optimieren – bevor Nutzer über Interfaces darauf zugreifen. | Bild: OpenAI
Fraglich ist daher, wie schnell agentische KI-Tools wie Claude Cowork ohne solche aufwendigen Integrationsprozesse Wertschöpfung erzielen. Modellverbesserungen und höhere Verlässlichkeit bei Routineaufgaben könnten helfen – allerdings gibt es noch grundlegende LLM-basierte Cybersecurity-Risiken.
Nvidia-CEO Jensen Huang halluziniert, Sprachmodelle würden nicht mehr halluzinieren
Nvidia-CEO Jensen Huang behauptet in einem CNBC-Interview, Sprachmodelle würden nicht mehr halluzinieren. Das ist falsch, und ihm wird nicht widersprochen. Ein Beispiel dafür, wie unsachlich die KI-Hype-Debatte mittlerweile geführt wird.
Auch die japanische Bevölkerung kämpft mit KI-Fake-Inhalten im Kontext von Wahlen. Bei der Unterhauswahl verbreiten sich massenhaft gefälschte Videos und Nachrichten in sozialen Medien, berichtet Japan Times. Generative KI macht die Erstellung täuschend echter Videos einfach, Plattformen wie YouTube und TikTok belohnen hohe Klickzahlen.