Googles Imagen 3 ist das beste Bildmodell, sagt Google

15. August 2024

Google Deepmind

Google hat mit Imagen 3 ein neues KI-Modell zur Bilderzeugung aus Textbeschreibungen veröffentlicht. Laut Google übertrifft es in Qualität und Detailtreue alle bisherigen Modelle.

Google hatte Imagen 3 im Mai vorgestellt und im Juni ersten Testern zur Verfügung gestellt. Mittlerweile ist das Modell - zumindest in einigen Ländern - frei über ImageFX verfügbar. Deutschland gehört bisher nicht dazu.

Mit der Veröffentlichung gibt es ein Paper. Demnach setzt Imagen 3 in puncto Qualität und Detailtreue einen neuen Maßstab für Text-zu-Bild-Modelle.

Imagen 3 schneidet in Googles Evaluierungen besser als die Konkurrenz ab

Imagen 3 wurde mit einem großen Datensatz aus Bildern, Texten und Annotationen trainiert. Die Daten durchliefen einen mehrstufigen Filterungsprozess, um unsichere, gewalttätige oder qualitativ minderwertige Inhalte sowie KI-generierte Bilder zu entfernen. Zudem wurden Duplikate entfernt und ähnliche Bilder abgewertet.

In Googles menschlichen und automatischen Evaluierungen schnitt Imagen 3 besser ab als Imagen 2, DALL-E 3, Midjourney v6, Stable Diffusion 3 und Stable Diffusion XL 1.0. Insbesondere bei der Übereinstimmung von Textbeschreibung und generiertem Bild sowie bei detaillierten Prompts war Imagen 3 demnach führend. Vergleiche mit dem kürzlich veröffentlichten FLUX-Modell fehlen.

Die gibt es mittlerweile jedoch auf X - dort hat der Nutzer Dogan Ural Vergleiche zwischen Midjourney, Imagen und FLUX geteilt.

Google just released Imagen 3!

Their latest text-to-image generator.
Anzeige
DEC_D_Incontent-2

Here's a couple of side-by-side with Midjourney & Flux pic.twitter.com/7b8XrjP2BI
Anzeige

— Dogan Ural (@doganuraldesign) August 9, 2024

Laut Google gibt es noch Schwächen, etwa bei Aufgaben, die numerisches Schlussfolgern erfordern, beispielsweise beim Generieren einer exakten Anzahl von Objekten. Auch Prompts, die räumliches Schlussfolgern und komplexe Sprache beinhalten, stellen weiter eine Herausforderung dar.

Imagen 3 ist in den USA über ImageFX verfügbar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Google

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Googles Imagen 3 ist das beste Bildmodell, sagt Google

Imagen 3 schneidet in Googles Evaluierungen besser als die Konkurrenz ab

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.