Jonathan Kemper
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
KI-Modelle erkennen oft nicht, was sie sehen
Ein neuer Härtetest für multimodale KI-Modelle offenbart fundamentale Schwächen: Der Benchmark „WorldVQA“ prüft, ob KI-Modelle visuelle Objekte tatsächlich erkennen. Selbst Spitzenreiter wie Gemini 3 Pro scheitern an der 50-Prozent-Marke und neigen zu massiver Selbstüberschätzung, wenn sie mit spezifischen Details statt generischen Begriffen konfrontiert werden.
Ein Modell, viele Stimmen: Reasoning-KI simuliert interne Expertenteams – und wird dadurch präziser
Wenn KI-Modelle nachdenken, streiten in ihrem Inneren verschiedene Stimmen miteinander: manche extravertiert, manche neurotisch, alle gewissenhaft. Forschende zeigen, dass dieses simulierte Teamwork die Leistung messbar verbessert.
Googles PaperBanana lässt fünf KI-Agenten wissenschaftliche Diagramme erstellen
KI-Agenten als Illustratoren: Forscher von Peking University und Google haben ein System entwickelt, das aus Methodenbeschreibungen automatisch Diagramme für wissenschaftliche Paper erzeugt. Fünf spezialisierte Agenten teilen sich dabei die Arbeit von der Recherche bis zur Qualitätskontrolle.
Read full article about: Voxtral Mini Transcribe V2 kombiniert niedrige Fehlerrate mit aggressivem Kampfpreis
Mistral AI will mit Voxtral Transcribe 2 die Konkurrenz bei der Spracherkennung preislich unterbieten. Die zweite Generation der Spracherkennungsmodelle kostet ab 0,003 US-Dollar pro Minute und soll laut Mistral bei der Genauigkeit Modelle wie GPT-4o mini Transcribe, Gemini 2.5 Flash und Deepgram Nova übertreffen. Die Modellfamilie umfasst zwei Varianten: Voxtral Mini Transcribe V2 für die Verarbeitung größerer Audiodateien und Voxtral Realtime für Echtzeit-Anwendungen mit Verzögerungen unter 200 Millisekunden. Das doppelt so teure Voxtral Realtime nutzt eine eigene Streaming-Architektur, die Audio während des Eintreffens transkribiert, gedacht für Sprachassistenten, Live-Untertitel oder Callcenter-Analyse.
Beide neuen Modelle unterstützen 13 Sprachen, darunter Deutsch, Englisch und Chinesisch. Neue Funktionen sind Sprechererkennung, Zeitstempel auf Wortebene und die Verarbeitung von Aufnahmen bis zu drei Stunden. Voxtral Realtime steht als Open-Weights unter Apache 2.0 auf Hugging Face und per API bereit, Voxtral Mini Transcribe V2 ist nur über Le Chat, die Mistral-API sowie einen Playground verfügbar. Die erste Voxtral-Generation hatte Mistral im Juli 2025 vorgestellt.
Kommentieren
Quelle: Mistral AI
Read full article about: Anthropic will biologische Forschung mit KI-Agenten beschleunigen
Anthropic geht zwei Partnerschaften mit führenden US-Forschungseinrichtungen ein, um KI-Agenten für die biologische Forschung zu entwickeln. Das Allen Institute und das Howard Hughes Medical Institute (HHMI) werden als Gründungspartner mit dem KI-Unternehmen zusammenarbeiten. Laut Anthropic erzeugt die moderne biologische Forschung "Daten in einem noch nie dagewesenen Ausmaß", doch die Umwandlung in "validierte biologische Erkenntnisse bleibt ein grundlegender Engpass". Manuelle Prozesse könnten "nicht mit den produzierten Daten Schritt halten".
HHMI wird am Janelia Research Campus KI-Agenten entwickeln, die Wissen mit wissenschaftlichen Geräten und Analysepipelines verbinden. Das Allen Institute arbeitet an Multi-Agenten-Systemen für Datenintegration und Experimentdesign, die monatelange Analyse auf Stunden verkürzen könnten. Die KI soll menschliches Urteilsvermögen ergänzen, nicht ersetzen.
Anthropic baut sein Angebot für Wissenschaftler damit weiter aus. Mit Cowork bietet das Unternehmen seit Kurzem eine auf Büroarbeiten zugeschnittene Funktion, die Claude Zugriff auf lokale Dateien gibt. Auch OpenAI adressiert den Forschungsmarkt mit Prism, einem KI-Workspace für wissenschaftliches Schreiben.
Kommentieren
Quelle: Anthropic
Read full article about: Chinas KI-Labore liefern sich Wettlauf vor dem Neujahrsfest
Chinas KI-Labore liefern sich vor dem chinesischen Neujahrsfest einen Wettlauf um neue Modellveröffentlichungen. Zhipu AI und Minimax, die beide kürzlich an der Hongkonger Börse debütierten, wollen laut South China Morning Post in den nächsten zwei Wochen ihre Flaggschiff-Modelle aktualisieren. Zhipu AI plant nach GLM-4.7 offenbar GLM-5 mit Verbesserungen bei kreativem Schreiben, Programmieren und logischem Denken; Minimax bereitet parallel dazu M2.2 mit Fokus auf Programmier-Funktionen vor. Im Jahr 2025 haben chinesische Unternehmen die Dominanz großer US-Firmen zunehmend in Frage gestellt.
Alibaba, Moonshot AI und Baidu haben zuletzt mit ihren leistungsstärksten Modellen Qwen3-Max-Thinking, Kimi K2.5 und Ernie 5.0 vorgelegt. Deepseek plant dieses Jahr laut einer Quelle aber nur ein kleineres Update: Das nächste große Modell des Unternehmens soll ein Billionen-Parameter-Modell werden, dessen Training sich wegen der wachsenden Größe anscheinend verzögert. Tencent, Baidu und Alibaba investieren derweil Milliarden Yuan in Werbekampagnen für ihre schon jetzt sehr beliebten KI-Chatbots während der Feiertage.
Kommentieren
Quelle: South China Morning Post
Deepseeks OCR 2-Modell verarbeitet Bilder so, wie das menschliche Auge sie wahrnimmt
Das chinesische KI-Unternehmen Deepseek hat einen neuartigen Vision-Encoder vorgestellt, der Bildinformationen semantisch neu anordnet: nach Zusammenhängen statt nach Position. Das spart Token und verbessert die Dokumentenerkennung.