Anzeige
Skip to content

Jonathan Kemper

Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Read full article about: Ollama generiert jetzt KI-Bilder lokal auf dem Mac

Ollama, die Software zum lokalen Ausführen von KI-Modellen, ermöglicht ab sofort Bildgenerierung auf macOS. Die Funktion ist noch experimentell und Unterstützung für die Funktion unter Windows und Linux sollen folgen. Zum Start stehen zwei Modelle zur Verfügung: Z-Image Turbo von Alibabas Tongyi Lab ist ein 6-Milliarden-Parameter-Modell, das fotorealistische Bilder erzeugt und Text in Englisch und Chinesisch darstellen kann. Das kürzlich vorgestellte Flux 2 Klein von Black Forest Labs ist das bisher schnellste Bildmodell des deutschen Unternehmens und kommt in 4B- und 9B-Varianten.

Terminal-Fenster zeigt Ollama-Prompt für eine Katze mit "Hello"-Schild und das generierte KI-Bild im Interface.
Terminals wie Ghostty oder iTerm2 zeigen Vorschauen direkt an.

Das 4B-Modell von Flux 2 Klein läuft auf handelsüblichen Grafikkarten mit mindestens 13 GB VRAM, etwa einer Nvidia RTX 3090 oder 4070. Die kleinere Version ist kommerziell nutzbar, die größere unterliegt einer nicht-kommerziellen Lizenz. Generierte Bilder werden direkt im aktuellen Verzeichnis gespeichert, und Nutzer können Bildgröße, Schrittanzahl und Seed-Werte anpassen. Geplant sind weitere Modelle und Bildbearbeitungsfunktionen.

Snaps SnapGen++ generiert hochauflösende KI-Bilder in unter zwei Sekunden direkt auf dem iPhone

Diffusion Transformer galten als zu groß fürs Handy. Snap widerlegt das: SnapGen++ generiert 1024-Pixel-Bilder in 1,8 Sekunden auf dem iPhone und schlägt dabei angeblich deutlich größere Servermodelle.

TranslateGemma: Google veröffentlicht offene KI-Modelle für Übersetzungen

TranslateGemma zeigt, wie Google mit gezieltem Training mehr aus kleineren Modellen herausholt: Das 12B-Modell übersetzt besser als das doppelt so große Basismodell – und läuft auf einem Consumer-Laptop. Mit der wachsenden Gemma-Familie positioniert sich Google im Wettbewerb um offene KI-Modelle.

Read full article about: Telekom-Kunden beschweren sich künftig bei KI-Agenten von Elevenlabs

Die Deutsche Telekom setzt bald KI-Sprachagenten von Elevenlabs im Kundenservice ein. Kunden können dann über App und Telefon rund um die Uhr mit realistisch klingenden KI-Stimmen ohne Wartezeit kommunizieren. Die Partnerschaft zwischen Europas größtem Telekommunikationsunternehmen und dem KI-Audio-Startup besteht bereits länger: Seit Oktober 2025 können Magenta-Kunden in der MeinMagenta-App kostenlos bis zu 25 Mal monatlich Texte in Podcasts umwandeln. Die Telekom hatte zudem in die Series-C-Finanzierungsrunde von Elevenlabs investiert.

Laut einer internen Auswertung von Elevenlabs löst ein KI-Support-Agent etwa 80 Prozent der Nutzeranfragen erfolgreich, vor allem bei konkreten Dokumentationsfragen. Bei komplexen Themen wie Fehlerbehebung oder Preisanfragen stößt das System jedoch an Grenzen und erfordert weiterhin menschliche Unterstützung.

Elevenlabs hat zuletzt einen Marktplatz für lizenzierte Stimmen berühmter Personen wie John Wayne oder Judy Garland gestartet. Im vergangenen Jahr stellte das Unternehmen das Sprachmodell Eleven v3 mit erweiterten Ausdrucksmöglichkeiten vor.

Googles Open-Source-Modell MedGemma 1.5 versteht dreidimensionale CT- und MRT-Aufnahmen

Google veröffentlicht MedGemma 1.5, ein Open-Source-Modell, das erstmals dreidimensionale CT- und MRT-Aufnahmen interpretieren kann. Dazu kommt ein neues Spracherkennungsmodell für medizinische Diktate.

Web World Models sollen KI-Agenten konsistente Spielwiesen geben

Forscher der Princeton University haben gemeinsam mit Kollegen der UCLA und University of Pennsylvania einen Ansatz vorgestellt, der KI-Agenten dauerhafte Welten zum Erkunden geben soll. Gewöhnlicher Web-Code legt dabei die Spielregeln fest, während ein Sprachmodell diese Welt mit Geschichten und Beschreibungen füllt.