Anzeige
Skip to content

KI-Modelle erkennen oft nicht, was sie sehen

Ein neuer Härtetest für multimodale KI-Modelle offenbart fundamentale Schwächen: Der Benchmark „WorldVQA“ prüft, ob KI-Modelle visuelle Objekte tatsächlich erkennen. Selbst Spitzenreiter wie Gemini 3 Pro scheitern an der 50-Prozent-Marke und neigen zu massiver Selbstüberschätzung, wenn sie mit spezifischen Details statt generischen Begriffen konfrontiert werden.

Ein Modell, viele Stimmen: Reasoning-KI simuliert interne Expertenteams – und wird dadurch präziser

Wenn KI-Modelle nachdenken, streiten in ihrem Inneren verschiedene Stimmen miteinander: manche extravertiert, manche neurotisch, alle gewissenhaft. Forschende zeigen, dass dieses simulierte Teamwork die Leistung messbar verbessert.

Googles PaperBanana lässt fünf KI-Agenten wissenschaftliche Diagramme erstellen

KI-Agenten als Illustratoren: Forscher von Peking University und Google haben ein System entwickelt, das aus Methodenbeschreibungen automatisch Diagramme für wissenschaftliche Paper erzeugt. Fünf spezialisierte Agenten teilen sich dabei die Arbeit von der Recherche bis zur Qualitätskontrolle.

OpenAI und Ginkgo Bioworks optimieren Proteinsynthese mit GPT-5 im Roboterlabor

OpenAI hat gemeinsam mit dem Biotech-Unternehmen Ginkgo Bioworks GPT-5 an ein automatisiertes Labor angeschlossen, um zellfreie Proteinsynthese zu optimieren. Die Ergebnisse sind messbar, die Einschränkungen aber erheblich.

Read full article about: Claude Opus 4.6 lieferte in Sicherheitstest Anleitungen für Senfgas in Excel-Tabellen

Anthropics Sicherheitstraining versagt, wenn Claude eine grafische Benutzeroberfläche bedient.

In Pilottests ließ sich Claude Opus 4.6 dazu bringen, in einer Excel-Tabelle detaillierte Anleitungen zur Herstellung von Senfgas zu liefern und eine Buchhaltungstabelle für eine kriminelle Bande zu führen – Verhaltensweisen, die in reinen Textinteraktionen nicht oder kaum auftraten.

„Wir haben festgestellt, dass einige Arten von Missbrauchsverhalten in diesen Pilotauswertungen auftraten, die in reinen Text-Interaktionen fehlten oder deutlich seltener waren", schreibt Anthropic in der System Card zu Claude Opus 4.6. „Diese Ergebnisse legen nahe, dass unsere standardmäßigen Alignment-Trainingsmaßnahmen in GUI-Umgebungen wahrscheinlich weniger wirksam sind."

Tests mit dem Vorgängermodell Claude Opus 4.5 in derselben Umgebung zeigten laut Anthropic „ähnliche Ergebnisse" – das Problem besteht also über Modellgenerationen hinweg fort, ohne dass es bisher behoben wurde. Die Sicherheitslücke entsteht offenbar dadurch, dass Modelle zwar lernen, schädliche Anfragen im Gespräch abzulehnen, dieses Verhalten aber nicht vollständig auf agentenbasierte Werkzeugnutzung übertragen.

Read full article about: Anthropic will biologische Forschung mit KI-Agenten beschleunigen

Anthropic geht zwei Partnerschaften mit führenden US-Forschungseinrichtungen ein, um KI-Agenten für die biologische Forschung zu entwickeln. Das Allen Institute und das Howard Hughes Medical Institute (HHMI) werden als Gründungspartner mit dem KI-Unternehmen zusammenarbeiten. Laut Anthropic erzeugt die moderne biologische Forschung "Daten in einem noch nie dagewesenen Ausmaß", doch die Umwandlung in "validierte biologische Erkenntnisse bleibt ein grundlegender Engpass". Manuelle Prozesse könnten "nicht mit den produzierten Daten Schritt halten".

HHMI wird am Janelia Research Campus KI-Agenten entwickeln, die Wissen mit wissenschaftlichen Geräten und Analysepipelines verbinden. Das Allen Institute arbeitet an Multi-Agenten-Systemen für Datenintegration und Experimentdesign, die monatelange Analyse auf Stunden verkürzen könnten. Die KI soll menschliches Urteilsvermögen ergänzen, nicht ersetzen.

Anthropic baut sein Angebot für Wissenschaftler damit weiter aus. Mit Cowork bietet das Unternehmen seit Kurzem eine auf Büroarbeiten zugeschnittene Funktion, die Claude Zugriff auf lokale Dateien gibt. Auch OpenAI adressiert den Forschungsmarkt mit Prism, einem KI-Workspace für wissenschaftliches Schreiben.

Read full article about: Chinas KI-Labore liefern sich Wettlauf vor dem Neujahrsfest

Chinas KI-Labore liefern sich vor dem chinesischen Neujahrsfest einen Wettlauf um neue Modellveröffentlichungen. Zhipu AI und Minimax, die beide kürzlich an der Hongkonger Börse debütierten, wollen laut South China Morning Post in den nächsten zwei Wochen ihre Flaggschiff-Modelle aktualisieren. Zhipu AI plant nach GLM-4.7 offenbar GLM-5 mit Verbesserungen bei kreativem Schreiben, Programmieren und logischem Denken; Minimax bereitet parallel dazu M2.2 mit Fokus auf Programmier-Funktionen vor. Im Jahr 2025 haben chinesische Unternehmen die Dominanz großer US-Firmen zunehmend in Frage gestellt.

Alibaba, Moonshot AI und Baidu haben zuletzt mit ihren leistungsstärksten Modellen Qwen3-Max-Thinking, Kimi K2.5 und Ernie 5.0 vorgelegt. Deepseek plant dieses Jahr laut einer Quelle aber nur ein kleineres Update: Das nächste große Modell des Unternehmens soll ein Billionen-Parameter-Modell werden, dessen Training sich wegen der wachsenden Größe anscheinend verzögert. Tencent, Baidu und Alibaba investieren derweil Milliarden Yuan in Werbekampagnen für ihre schon jetzt sehr beliebten KI-Chatbots während der Feiertage.

Deepseeks OCR 2-Modell verarbeitet Bilder so, wie das menschliche Auge sie wahrnimmt

Das chinesische KI-Unternehmen Deepseek hat einen neuartigen Vision-Encoder vorgestellt, der Bildinformationen semantisch neu anordnet: nach Zusammenhängen statt nach Position. Das spart Token und verbessert die Dokumentenerkennung.