Anzeige
Short

Midjourney hat Version 7 seines Bildgenerators aktualisiert. Die Bilder sollen eine bessere Bildqualität, genauere Darstellung von Händen und Körpern sowie eine höhere Übereinstimmung mit der Texteingabe zeigen. Zusätzlich wurde die Benutzeroberfläche des Editors überarbeitet. Nutzer erhalten nun direkten Zugang zu Funktionen wie "Vary" und "Upscale", einer Bildvorschau rechts sowie verbesserten Werkzeugen wie einer intelligenten Segmentierung. Neu ist auch der Parameter --exp, der die Bildästhetik beeinflusst. Höhere Werte erzeugen detailreichere und dynamischere Bilder, verringern jedoch die Genauigkeit der Texteingabe. Die empfohlenen Werte liegen zwischen 5 und 50.

Anzeige
Short

Jack Krawczyk, ehemaliger Produktchef von Googles KI-Projekten Bard und Gemini, wechselt zu Meta. Meta hatte im Rahmen seiner Entwicklerkonferenz erstmals eine Standalone-Meta-AI-App vorgestellt. Auf LinkedIn gibt Krawczyk einen Ausblick auf seine Pläne bei Meta: Die Persönlichkeit von KI-Assistenten sei das eigentliche Produkt.

Menschen möchten mit jemandem sprechen, der wie ein Freund oder Coach wirkt – nicht mit einem belehrenden Assistenten. Für gute Gespräche braucht es eine KI, die klug, informiert, nicht wertend, bescheiden und etwas witzig ist. Vertrauen entsteht, wenn man Menschen hilft, eigene fundierte Entscheidungen zu treffen – nicht, wenn man ihnen sagt, was oder wie sie denken sollen.

Anzeige
Short

Die Funktion "Audio Overviews" von NotebookLM ist nun in rund 75 Sprachen verfügbar, darunter auch weniger gesprochene Sprachen wie Isländisch, Baskisch oder Latein. Laut Google wurde dabei auf Feedback internationaler Teams zurückgegriffen. Die Audio-Inhalte werden für jede Sprache von so genannten "Metaprompting"-gesteuerten KI-Agenten erzeugt. Grundlage ist das Sprachmodell Gemini 2.5 Pro. Gleichzeitig stellt Google auf eine vollständig auf Gemini basierende Audioproduktionstechnologie um.

Wie bei KI-generierten Texten kann auch KI-Audio inhaltliche Fehler enthalten. Das gilt insbesondere für KI-Podcasts, da hier oft aus wenig Text viel Audio generiert wird und zudem die Textumwandlung (Text zu Dialog) einen großen Eingriff in die Originalquelle darstellt.

Google News