FACTS-Benchmark: Auch Top-KI-Modelle kämpfen mit der Wahrheit
Ein neuer Benchmark von Google DeepMind soll die Zuverlässigkeit von KI-Modellen umfassender messen als bisher. Die Ergebnisse zeigen, dass selbst Spitzenmodelle wie Gemini 3 Pro und GPT-5.1 weit von Perfektion entfernt sind.
Read full article about: Rnj-1: Transformer-Pionier Vaswani stellt neues Coding-Modell vor
Das neue Open-Source-Modell Rnj-1 von Essential AI lässt im Test "SWE-bench Verified" deutlich größere Konkurrenz hinter sich. Dieser Benchmark gilt als besonders anspruchsvoll, da er die eigenständige Lösung echter Programmierprobleme aus der Praxis bewertet. Obwohl Rnj-1 mit acht Milliarden Parametern zu den kompakteren Modellen zählt, erreicht es hier einen Wert von 20,8 Punkten.
Ähnlich große Modelle wie Qwen 3 (ohne Reasoning, 8B) kommen im Vergleich von Essential AI nur auf 4,5 Punkte. Vorgestellt wurde das System von Ashish Vaswani, Mitgründer von Essential AI und Co-Autor des berühmten "Attention is all you need"-Paper, das die Transformer-Architektur einführte. Rnj-1 basiert ebenfalls auf einem Transformer, genauer auf der Gemma-3-Architektur. Der Fokus lag laut dem Unternehmen dabei primär auf einem besseren Pre-Training, statt auf anderen Methoden wie dem Reinforcement-Learning im Post-Training. Die Verbesserungen äußern sich auch in den vergleichsweise geringen Pre-Training-Rechenressourcen durch den verwendeten Muon-Optimizer.
Kommentieren
Quelle: EssentialAI
Perplexity stellt Sicherheitssystem gegen Prompt-Injection-Angriffe auf Browser-Agenten vor
Perplexity stellt ein neues Sicherheitssystem für KI-Browser vor – und trifft damit einen wunden Punkt der Branche. Während immer mehr Anbieter Agenten tief ins Web integrieren, steigt das Risiko versteckter Prompt-Injection-Angriffe. BrowseSafe soll diese Lücke schließen: schnell, präzise und für die unberechenbare Realität des Netzes gebaut. Doch die grundlegenden Sicherheitsprobleme bleiben bestehen.
Apple zeigt Alternative zu Diffusionsmodellen für Video-KI
Apples STARFlow‑V zeigt: Videogenerierung muss nicht auf Diffusion setzen. Das neue Modell nutzt „Normalizing Flows“, erzeugt so stabilere längere Clips und hängt andere autoregressive Ansätze im Benchmark ab. Es bleibt aber bei Qualität, Auflösung und Physik noch sichtbar hinter Top-Modellen wie Veo 3 oder HunyuanVideo zurück.
Read full article about: Deepmind-Chef sieht drei KI-Themen für 2026: Multimodal, interaktiv und autonom
Demis Hassabis, CEO von Google Deepmind, erwartet in den nächsten zwölf Monaten Fortschritte bei der Konvergenz multimodaler Modelle, interaktiven Videowelten und verlässlichen KI-Agenten. Besonders die Multimodalität von Gemini ermögliche neue Anwendungen, erklärte Hassabis auf dem Axios AI+ Summit. Als Beispiel nannte er eine Szene aus dem Film "Fight Club", in der die KI das Ablegen eines Rings philosophisch als Symbol für den Verzicht auf den Alltag deutete. Auch das neueste Bildmodell von Google nutzt diese multimodalen Fähigkeiten, um visuelle Inhalte präzise zu verstehen und etwa Infografiken zu erstellen.
Zudem arbeitet Google Deepmind weiter an "Weltmodellen" wie Genie 3, die interaktive, begehbare Videoräume erzeugen. Hassabis prognostiziert auch, dass KI-Agenten in einem Jahr "nahe dran" sein werden, komplexere Aufgaben verlässlich und eigenständig zu erledigen. Ziel sei ein universeller Assistent, der Nutzer über verschiedene Geräte hinweg im Alltag begleitet.
Kommentieren
Quelle: Axios via YouTube
