Anzeige
Skip to content

Jonathan Kemper

Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Read full article about: Baidus neues Modell Ernie 5.0 hat 2,4 Billionen Parameter und ist chinesisches Top-Modell in LMArena

Baidus KI-Modell Ernie 5.0, das Text, Bilder, Audio und Video in einer einheitlichen Architektur verarbeitet, ist jetzt offiziell verfügbar. Laut dem LMArena-Ranking vom 15. Januar 2026 erreichte Ernie-5.0-0110 einen Score von 1.460 Punkten und belegte damit Platz 8 weltweit sowie Platz 1 unter allen chinesischen Modellen, gleichauf mit dem etwas älteren OpenAI-Modell GPT-5.1 (High) und vor Googles Gemini 2.5 Pro sowie Anthropics Claude Sonnet 4.5. Das nächstbeste Modell aus China ist GLM-4.7 von Zhipu AI. In der Kategorie Mathematik landet Ernie 5.0 auf Platz 2 weltweit, nur hinter GPT 5.2 (High).

LM-Arena-Ranking: Baidu Ernie-5.0-0110 belegt Platz 8 mit 1460 Punkten in Textbenchmarks der Top 10.
Das LMArena-Ranking ermittelt sich aus zahlreichen anonymen Paarvergleichen, bei denen Nutzer die bessere Modellantwort wählen.

Das Modell nutzt eine Mixture-of-Experts-Architektur mit rund 2,4 Billionen Parametern, wobei pro Anfrage weniger als 3 Prozent aktiv sind. Das Modell ist bislang nur unter ernie.baidu.com zugänglich, im Gegensatz zu früheren Ausgaben hat Baidu bislang keine Gewichte veröffentlicht. Ein technischer Report oder nähere Details zur Funktionsweise stehen ebenfalls noch aus. Zuletzt hatte Baidu mit Ernie-4.5-VL-28B-A3B-Thinking ein offenes Modell herausgebracht, das Bilder während des Denkprozesses bearbeiten kann, etwa heranzoomen, um Text besser zu lesen.

Read full article about: Ollama generiert jetzt KI-Bilder lokal auf dem Mac

Ollama, die Software zum lokalen Ausführen von KI-Modellen, ermöglicht ab sofort Bildgenerierung auf macOS. Die Funktion ist noch experimentell und Unterstützung für die Funktion unter Windows und Linux sollen folgen. Zum Start stehen zwei Modelle zur Verfügung: Z-Image Turbo von Alibabas Tongyi Lab ist ein 6-Milliarden-Parameter-Modell, das fotorealistische Bilder erzeugt und Text in Englisch und Chinesisch darstellen kann. Das kürzlich vorgestellte Flux 2 Klein von Black Forest Labs ist das bisher schnellste Bildmodell des deutschen Unternehmens und kommt in 4B- und 9B-Varianten.

Terminal-Fenster zeigt Ollama-Prompt für eine Katze mit "Hello"-Schild und das generierte KI-Bild im Interface.
Terminals wie Ghostty oder iTerm2 zeigen Vorschauen direkt an.

Das 4B-Modell von Flux 2 Klein läuft auf handelsüblichen Grafikkarten mit mindestens 13 GB VRAM, etwa einer Nvidia RTX 3090 oder 4070. Die kleinere Version ist kommerziell nutzbar, die größere unterliegt einer nicht-kommerziellen Lizenz. Generierte Bilder werden direkt im aktuellen Verzeichnis gespeichert, und Nutzer können Bildgröße, Schrittanzahl und Seed-Werte anpassen. Geplant sind weitere Modelle und Bildbearbeitungsfunktionen.

Snaps SnapGen++ generiert hochauflösende KI-Bilder in unter zwei Sekunden direkt auf dem iPhone

Diffusion Transformer galten als zu groß fürs Handy. Snap widerlegt das: SnapGen++ generiert 1024-Pixel-Bilder in 1,8 Sekunden auf dem iPhone und schlägt dabei angeblich deutlich größere Servermodelle.

TranslateGemma: Google veröffentlicht offene KI-Modelle für Übersetzungen

TranslateGemma zeigt, wie Google mit gezieltem Training mehr aus kleineren Modellen herausholt: Das 12B-Modell übersetzt besser als das doppelt so große Basismodell – und läuft auf einem Consumer-Laptop. Mit der wachsenden Gemma-Familie positioniert sich Google im Wettbewerb um offene KI-Modelle.

Read full article about: Telekom-Kunden beschweren sich künftig bei KI-Agenten von Elevenlabs

Die Deutsche Telekom setzt bald KI-Sprachagenten von Elevenlabs im Kundenservice ein. Kunden können dann über App und Telefon rund um die Uhr mit realistisch klingenden KI-Stimmen ohne Wartezeit kommunizieren. Die Partnerschaft zwischen Europas größtem Telekommunikationsunternehmen und dem KI-Audio-Startup besteht bereits länger: Seit Oktober 2025 können Magenta-Kunden in der MeinMagenta-App kostenlos bis zu 25 Mal monatlich Texte in Podcasts umwandeln. Die Telekom hatte zudem in die Series-C-Finanzierungsrunde von Elevenlabs investiert.

Laut einer internen Auswertung von Elevenlabs löst ein KI-Support-Agent etwa 80 Prozent der Nutzeranfragen erfolgreich, vor allem bei konkreten Dokumentationsfragen. Bei komplexen Themen wie Fehlerbehebung oder Preisanfragen stößt das System jedoch an Grenzen und erfordert weiterhin menschliche Unterstützung.

Elevenlabs hat zuletzt einen Marktplatz für lizenzierte Stimmen berühmter Personen wie John Wayne oder Judy Garland gestartet. Im vergangenen Jahr stellte das Unternehmen das Sprachmodell Eleven v3 mit erweiterten Ausdrucksmöglichkeiten vor.

Googles Open-Source-Modell MedGemma 1.5 versteht dreidimensionale CT- und MRT-Aufnahmen

Google veröffentlicht MedGemma 1.5, ein Open-Source-Modell, das erstmals dreidimensionale CT- und MRT-Aufnahmen interpretieren kann. Dazu kommt ein neues Spracherkennungsmodell für medizinische Diktate.