Anzeige
Skip to content

KI-Modelle erkennen oft nicht, was sie sehen

Ein neuer Härtetest für multimodale KI-Modelle offenbart fundamentale Schwächen: Der Benchmark „WorldVQA“ prüft, ob KI-Modelle visuelle Objekte tatsächlich erkennen. Selbst Spitzenreiter wie Gemini 3 Pro scheitern an der 50-Prozent-Marke und neigen zu massiver Selbstüberschätzung, wenn sie mit spezifischen Details statt generischen Begriffen konfrontiert werden.

Read full article about: Benchmark-Analyse: Claude Opus 4.6 verdrängt die Konkurrenz von Platz eins

Claude Opus 4.6 ist das neue beste KI-Modell. Zumindest, bis Artificial Analysis auch OpenAIs Codex 5.3 gebenchmarkt hat, das im Coding vorn liegen dürfte. Für den Moment jedenfalls belegt Anthropics neues Modell Platz eins im Artificial Analysis Intelligence Index, der zehn Tests zu Coding, Agenten-Aufgaben und wissenschaftlichem Denken zusammenfasst. Opus 4.6 führt in drei Kategorien: agentenbasierte Arbeitsaufgaben, Terminal-Coding und Physik-Forschungsprobleme.

Artificial Analysis

Der komplette Testlauf kostete 2.486 Dollar, mehr als die 2.304 Dollar für GPT-5.2 mit maximaler Reasoning-Leistung. Opus 4.6 verbrauchte dabei rund 58 Millionen Ausgabe-Tokens, doppelt so viele wie Opus 4.5, aber deutlich weniger als die 130 Millionen von GPT-5.2. Der höhere Gesamtpreis ergibt sich aus Anthropics Token-Preisen von 5 bzw. 25 Dollar pro Million Input/Output-Tokens. Opus 4.6 ist in Claude.ai-Apps und über Anthropics API, Google Vertex, AWS Bedrock und Microsoft Azure verfügbar.

Anzeige
Read full article about: Anthropics neuer Claude "Fast Mode" ist 2,5-mal schneller, aber sechsmal teurer

Anthropic hat einen neuen Schnellmodus für Claude, aber der Preis hat es in sich: Der "Fast Mode" für Opus 4.6 kostet bis zu sechsmal so viel wie der Standardpreis. Dafür soll das Modell laut Anthropic 2,5-mal schneller antworten, bei gleicher Qualität. Der Modus eigne sich primär für Live-Debugging, schnelle Code-Iterationen und zeitkritische Tasks. Der Standardmodus ist laut Anthropic weiter besser für lange autonome Aufgaben, Batch-Verarbeitung/CI-CD-Pipelines und kosten-sensitive Workloads.

Standard Fast Mode
Input ≤ 200K Tokens $5 / MTok $30 / MTok
Input > 200K Tokens $10 / MTok $60 / MTok
Output ≤ 200K Tokens $25 / MTok $150 / MTok
Output > 200K Tokens $37,50 / MTok $225 / MTok

Fast Mode lässt sich in Claude Code mit /fast aktivieren und ist auch bei Cursor, GitHub Copilot, Figma und Windsurf verfügbar. Bis zum 16. Februar gilt ein Einführungsrabatt von 50 Prozent. Fast Mode ist nicht nutzbar über Amazon Bedrock, Google Vertex AI oder Microsoft Azure Foundry. Anthropic plant, den API-Zugang auszuweiten: Interessierte können sich auf eine Warteliste eintragen.

Ein Modell, viele Stimmen: Reasoning-KI simuliert interne Expertenteams – und wird dadurch präziser

Wenn KI-Modelle nachdenken, streiten in ihrem Inneren verschiedene Stimmen miteinander: manche extravertiert, manche neurotisch, alle gewissenhaft. Forschende zeigen, dass dieses simulierte Teamwork die Leistung messbar verbessert.

Anzeige
Read full article about: Zuverlässigkeit bei KI-Agenten: OpenAI und Anthropic arbeiten direkt mit Großkunden

KI-Integration in Unternehmen schafft man nicht mit ein paar ChatGPT-Accounts. OpenAI stellt hunderte neue Mitarbeiter für sein technisches Beratungsteam ein, berichtet The Information. Diese Ingenieure passen OpenAIs Modelle mit Kundendaten an und entwickeln KI-Agenten. Derzeit beschäftigt OpenAI etwa 60 solcher Ingenieure plus über 200 im technischen Support. Auch Anthropic arbeitet direkt mit Kunden zusammen.

Das Problem: KI-Agenten funktionieren ohne Anpassung oft nicht zuverlässig. Der Einzelhändler Fnac testete Modelle von OpenAI und Google für den Kundensupport – die Agenten verwechselten Seriennummern. Erst nach Unterstützung durch AI21 Labs funktionierte das System.

OpenAI Frontier Architektur
OpenAIs neue agentische Enterprise-Plattform "Frontier" zeigt die Komplexität der KI-Integration: Die Technologie muss auf bestehende Unternehmenssysteme ("Systems of Record") aufsetzen, Geschäftskontext verstehen, Agenten ausführen und optimieren – bevor Nutzer über Interfaces darauf zugreifen. | Bild: OpenAI

Fraglich ist daher, wie schnell agentische KI-Tools wie Claude Cowork ohne solche aufwendigen Integrationsprozesse Wertschöpfung erzielen. Modellverbesserungen und höhere Verlässlichkeit bei Routineaufgaben könnten helfen – allerdings gibt es noch grundlegende LLM-basierte Cybersecurity-Risiken.

Nvidia-CEO Jensen Huang halluziniert, Sprachmodelle würden nicht mehr halluzinieren

Nvidia-CEO Jensen Huang behauptet in einem CNBC-Interview, Sprachmodelle würden nicht mehr halluzinieren. Das ist falsch, und ihm wird nicht widersprochen. Ein Beispiel dafür, wie unsachlich die KI-Hype-Debatte mittlerweile geführt wird.

Anzeige
Read full article about: Wahlen in Japan: Bevölkerung kämpft mit gefälschten KI-Inhalten

Auch die japanische Bevölkerung kämpft mit KI-Fake-Inhalten im Kontext von Wahlen. Bei der Unterhauswahl verbreiten sich massenhaft gefälschte Videos und Nachrichten in sozialen Medien, berichtet Japan Times. Generative KI macht die Erstellung täuschend echter Videos einfach, Plattformen wie YouTube und TikTok belohnen hohe Klickzahlen.

Ein gefälschtes Video etwa zeigte zwei Parteichefs mit einem kommunistisch anmutenden roten Logo. Ein YouTube-Kanal mit KI-generierten über Politik schimpfenden Großmüttern erreichte fast sechs Millionen Aufrufe. Laut Professor Shinichi Yamaguchi von der International University of Japan hielten 51,5 Prozent in einer umfassenden Umfrage Falschnachrichten für wahr: eine Gefahr für die Demokratie.

Es geht auch umgekehrt: Ein Kandidat postete ein Video einer großen Menschenmenge bei seiner Wahlkampfveranstaltung. Der KI-Chatbot Grok stufte es als KI-generiert ein, obwohl es authentisch war. Dieses Phänomen nennt sich Lügner-Dividende: Allein die Existenz generativer KI spielt Lügnern in die Hände. Donald Trump etwa behauptete, authentische Fotos eines Harris-Empfangs seien KI-manipuliert. Auch anderswo setzen primär konservative Kräfte KI im Wahlkampf ein, teils offen, teils verdeckt.