Google hat mit Imagen 3 ein neues KI-Modell zur Bilderzeugung aus Textbeschreibungen veröffentlicht. Laut Google übertrifft es in Qualität und Detailtreue alle bisherigen Modelle.
Google hatte Imagen 3 im Mai vorgestellt und im Juni ersten Testern zur Verfügung gestellt. Mittlerweile ist das Modell - zumindest in einigen Ländern - frei über ImageFX verfügbar. Deutschland gehört bisher nicht dazu.
Mit der Veröffentlichung gibt es ein Paper. Demnach setzt Imagen 3 in puncto Qualität und Detailtreue einen neuen Maßstab für Text-zu-Bild-Modelle.
Imagen 3 schneidet in Googles Evaluierungen besser als die Konkurrenz ab
Imagen 3 wurde mit einem großen Datensatz aus Bildern, Texten und Annotationen trainiert. Die Daten durchliefen einen mehrstufigen Filterungsprozess, um unsichere, gewalttätige oder qualitativ minderwertige Inhalte sowie KI-generierte Bilder zu entfernen. Zudem wurden Duplikate entfernt und ähnliche Bilder abgewertet.
In Googles menschlichen und automatischen Evaluierungen schnitt Imagen 3 besser ab als Imagen 2, DALL-E 3, Midjourney v6, Stable Diffusion 3 und Stable Diffusion XL 1.0. Insbesondere bei der Übereinstimmung von Textbeschreibung und generiertem Bild sowie bei detaillierten Prompts war Imagen 3 demnach führend. Vergleiche mit dem kürzlich veröffentlichten FLUX-Modell fehlen.
Die gibt es mittlerweile jedoch auf X - dort hat der Nutzer Dogan Ural Vergleiche zwischen Midjourney, Imagen und FLUX geteilt.
Google just released Imagen 3!
Their latest text-to-image generator.
Here's a couple of side-by-side with Midjourney & Flux pic.twitter.com/7b8XrjP2BI
— Dogan Ural (@doganuraldesign) August 9, 2024
Laut Google gibt es noch Schwächen, etwa bei Aufgaben, die numerisches Schlussfolgern erfordern, beispielsweise beim Generieren einer exakten Anzahl von Objekten. Auch Prompts, die räumliches Schlussfolgern und komplexe Sprache beinhalten, stellen weiter eine Herausforderung dar.
Imagen 3 ist in den USA über ImageFX verfügbar.