Skip to content
Read full article about: Rnj-1: Transformer-Pionier Vaswani stellt neues Coding-Modell vor

Das neue Open-Source-Modell Rnj-1 von Essential AI lässt im Test "SWE-bench Verified" deutlich größere Konkurrenz hinter sich. Dieser Benchmark gilt als besonders anspruchsvoll, da er die eigenständige Lösung echter Programmierprobleme aus der Praxis bewertet. Obwohl Rnj-1 mit acht Milliarden Parametern zu den kompakteren Modellen zählt, erreicht es hier einen Wert von 20,8 Punkten.

Ähnlich große Modelle wie Qwen 3 (ohne Reasoning, 8B) kommen im Vergleich von Essential AI nur auf 4,5 Punkte. Vorgestellt wurde das System von Ashish Vaswani, Mitgründer von Essential AI und Co-Autor des berühmten "Attention is all you need"-Paper, das die Transformer-Architektur einführte. Rnj-1 basiert ebenfalls auf einem Transformer, genauer auf der Gemma-3-Architektur. Der Fokus lag laut dem Unternehmen dabei primär auf einem besseren Pre-Training, statt auf anderen Methoden wie dem Reinforcement-Learning im Post-Training. Die Verbesserungen äußern sich auch in den vergleichsweise geringen Pre-Training-Rechenressourcen durch den verwendeten Muon-Optimizer.

Chinas KI-Training in Kenia: WhatsApp-Gruppen ersetzen den Arbeitsvertrag

Während US-Tech-Giganten für ihre Arbeitspraktiken in Kenia zunehmend unter Beobachtung stehen, bauen chinesische KI-Firmen im Stillen ein Netzwerk aus Billigarbeitskräften auf. Die Rekrutierung läuft informell über WhatsApp, ohne Verträge und mit enormem Leistungsdruck.

Kreative nutzen KI trotz Stigma und Zukunftsängsten für mehr Produktivität

Kreative Berufsgruppen steigern mit KI-Tools ihre Produktivität erheblich, doch die Mehrheit verschweigt die Nutzung aus Angst vor dem Urteil ihrer Kollegen, wie eine neue Anthropic-Studie mit 1.250 Berufstätigen zeigt.

Ein Creative Director macht deutlich, dass der eigene Effizienzgewinn auch Schattenseiten hat: Die Aufträge, die früher an einen Produktfotografen gingen, werden inzwischen selbst erledigt. Damit profitiert der eine Kreative auf Kosten des anderen.

Perplexity stellt Sicherheitssystem gegen Prompt-Injection-Angriffe auf Browser-Agenten vor

Perplexity stellt ein neues Sicherheitssystem für KI-Browser vor – und trifft damit einen wunden Punkt der Branche. Während immer mehr Anbieter Agenten tief ins Web integrieren, steigt das Risiko versteckter Prompt-Injection-Angriffe. BrowseSafe soll diese Lücke schließen: schnell, präzise und für die unberechenbare Realität des Netzes gebaut. Doch die grundlegenden Sicherheitsprobleme bleiben bestehen.

Open-Source-KI GeoVista findet Aufnahmeorte von Fotos durch Zoom und Websuche

Ein Forschungsteam aus China hat mit GeoVista ein Open-Source-KI-Modell vorgestellt, das Bilder analysiert und gleichzeitig das Internet durchsucht, um deren Aufnahmeort zu bestimmen. Das Modell soll die Leistung kommerzieller Systeme wie Gemini-2.5-flash erreichen.

Apple zeigt Alternative zu Diffusionsmodellen für Video-KI

Apples STARFlow‑V zeigt: Videogen­erierung muss nicht auf Diffusion setzen. Das neue Modell nutzt „Normalizing Flows“, erzeugt so stabilere längere Clips und hängt andere autoregressive Ansätze im Benchmark ab. Es bleibt aber bei Qualität, Auflösung und Physik noch sichtbar hinter Top-Modellen wie Veo 3 oder HunyuanVideo zurück.

Read full article about: Deepmind-Chef sieht drei KI-Themen für 2026: Multimodal, interaktiv und autonom

Demis Hassabis, CEO von Google Deepmind, erwartet in den nächsten zwölf Monaten Fortschritte bei der Konvergenz multimodaler Modelle, interaktiven Videowelten und verlässlichen KI-Agenten. Besonders die Multimodalität von Gemini ermögliche neue Anwendungen, erklärte Hassabis auf dem Axios AI+ Summit. Als Beispiel nannte er eine Szene aus dem Film "Fight Club", in der die KI das Ablegen eines Rings philosophisch als Symbol für den Verzicht auf den Alltag deutete. Auch das neueste Bildmodell von Google nutzt diese multimodalen Fähigkeiten, um visuelle Inhalte präzise zu verstehen und etwa Infografiken zu erstellen.

Zudem arbeitet Google Deepmind weiter an "Weltmodellen" wie Genie 3, die interaktive, begehbare Videoräume erzeugen. Hassabis prognostiziert auch, dass KI-Agenten in einem Jahr "nahe dran" sein werden, komplexere Aufgaben verlässlich und eigenständig zu erledigen. Ziel sei ein universeller Assistent, der Nutzer über verschiedene Geräte hinweg im Alltag begleitet.