Jonathan Kemper

21. Januar 2026

Ollama, die Software zum lokalen Ausführen von KI-Modellen, ermöglicht ab sofort Bildgenerierung auf macOS. Die Funktion ist noch experimentell und Unterstützung für die Funktion unter Windows und Linux sollen folgen. Zum Start stehen zwei Modelle zur Verfügung: Z-Image Turbo von Alibabas Tongyi Lab ist ein 6-Milliarden-Parameter-Modell, das fotorealistische Bilder erzeugt und Text in Englisch und Chinesisch darstellen kann. Das kürzlich vorgestellte Flux 2 Klein von Black Forest Labs ist das bisher schnellste Bildmodell des deutschen Unternehmens und kommt in 4B- und 9B-Varianten.

Terminal-Fenster zeigt Ollama-Prompt für eine Katze mit "Hello"-Schild und das generierte KI-Bild im Interface. — Terminals wie Ghostty oder iTerm2 zeigen Vorschauen direkt an.

Das 4B-Modell von Flux 2 Klein läuft auf handelsüblichen Grafikkarten mit mindestens 13 GB VRAM, etwa einer Nvidia RTX 3090 oder 4070. Die kleinere Version ist kommerziell nutzbar, die größere unterliegt einer nicht-kommerziellen Lizenz. Generierte Bilder werden direkt im aktuellen Verzeichnis gespeichert, und Nutzer können Bildgröße, Schrittanzahl und Seed-Werte anpassen. Geplant sind weitere Modelle und Bildbearbeitungsfunktionen.

Kommentieren Quelle: Ollama

Jonathan Kemper

18. Januar 2026

Forschung

Snaps SnapGen++ generiert hochauflösende KI-Bilder in unter zwei Sekunden direkt auf dem iPhone

Diffusion Transformer galten als zu groß fürs Handy. Snap widerlegt das: SnapGen++ generiert 1024-Pixel-Bilder in 1,8 Sekunden auf dem iPhone und schlägt dabei angeblich deutlich größere Servermodelle.

Vollständigen Artikel lesen

Kommentieren

Jonathan Kemper

18. Januar 2026

Forschung

Selbst die besten KI-Modelle scheitern an visuellen Aufgaben für Kleinkinder

Vier farbige Hände bearbeiten Spirograph-Kreise, ein Labyrinth, ein 3D-Puzzle und quadratische Formen.

Jonathan Kemper

17. Januar 2026

Praxis

KI-Modell Flux 2 klein bringt Bildgenerierung und -bearbeitung auf heimische Grafikkarten

Collage fotorealistischer KI-Bilder: Porträts, Landschaften, Tiere und Stadtszenen mit hoher Detailtiefe

Jonathan Kemper

15. Januar 2026

Praxis

TranslateGemma: Google veröffentlicht offene KI-Modelle für Übersetzungen

TranslateGemma zeigt, wie Google mit gezieltem Training mehr aus kleineren Modellen herausholt: Das 12B-Modell übersetzt besser als das doppelt so große Basismodell – und läuft auf einem Consumer-Laptop. Mit der wachsenden Gemma-Familie positioniert sich Google im Wettbewerb um offene KI-Modelle.

Vollständigen Artikel lesen

Kommentieren

Jonathan Kemper

15. Januar 2026

Forschung

GLM-Image: Offenes Bildmodell von Zhipu AI für exakte Prompts und starke Textdarstellung

Junge Frau mit ZHIPU-Shirt hält Marker vor Whiteboard mit chinesischen Texten zu GLM-Image-Modellfunktionen in Büro

Jonathan Kemper

14. Januar 2026

Short News

Die Deutsche Telekom setzt bald KI-Sprachagenten von Elevenlabs im Kundenservice ein. Kunden können dann über App und Telefon rund um die Uhr mit realistisch klingenden KI-Stimmen ohne Wartezeit kommunizieren. Die Partnerschaft zwischen Europas größtem Telekommunikationsunternehmen und dem KI-Audio-Startup besteht bereits länger: Seit Oktober 2025 können Magenta-Kunden in der MeinMagenta-App kostenlos bis zu 25 Mal monatlich Texte in Podcasts umwandeln. Die Telekom hatte zudem in die Series-C-Finanzierungsrunde von Elevenlabs investiert.

Laut einer internen Auswertung von Elevenlabs löst ein KI-Support-Agent etwa 80 Prozent der Nutzeranfragen erfolgreich, vor allem bei konkreten Dokumentationsfragen. Bei komplexen Themen wie Fehlerbehebung oder Preisanfragen stößt das System jedoch an Grenzen und erfordert weiterhin menschliche Unterstützung.

Elevenlabs hat zuletzt einen Marktplatz für lizenzierte Stimmen berühmter Personen wie John Wayne oder Judy Garland gestartet. Im vergangenen Jahr stellte das Unternehmen das Sprachmodell Eleven v3 mit erweiterten Ausdrucksmöglichkeiten vor.

Kommentieren Quelle: Elevenlabs

Jonathan Kemper

14. Januar 2026

Forschung

Googles Open-Source-Modell MedGemma 1.5 versteht dreidimensionale CT- und MRT-Aufnahmen

Google veröffentlicht MedGemma 1.5, ein Open-Source-Modell, das erstmals dreidimensionale CT- und MRT-Aufnahmen interpretieren kann. Dazu kommt ein neues Spracherkennungsmodell für medizinische Diktate.

Vollständigen Artikel lesen

Kommentieren

Jonathan Kemper

11. Januar 2026

Forschung

Lightricks macht KI-Videomodell LTX-2 offen und fordert Sora und Veo heraus

Cartoon-Mädchen in Jeansjacke und Schal steuert lächelnd ein hölzernes Segelboot auf ruhigem Meer mit rosa Abendhimmel.

Jonathan Kemper

11. Januar 2026

Forschung

Web World Models sollen KI-Agenten konsistente Spielwiesen geben

Forscher der Princeton University haben gemeinsam mit Kollegen der UCLA und University of Pennsylvania einen Ansatz vorgestellt, der KI-Agenten dauerhafte Welten zum Erkunden geben soll. Gewöhnlicher Web-Code legt dabei die Spielregeln fest, während ein Sprachmodell diese Welt mit Geschichten und Beschreibungen füllt.

Vollständigen Artikel lesen

Kommentieren