Skip to content

Googles Imagen 3 ist das beste Bildmodell, sagt Google

Image description
Google Deepmind

Kurz & Knapp

  • Google hat mit Imagen 3 ein neues KI-Modell zur Bilderzeugung aus Textbeschreibungen veröffentlicht, das laut Google in Qualität und Detailtreue alle bisherigen Modelle übertrifft.
  • Imagen 3 wurde mit einem großen, mehrstufig gefilterten Datensatz trainiert und schnitt in Googles Evaluierungen besser ab als Imagen 2, DALL-E 3, Midjourney v6, Stable Diffusion 3 und Stable Diffusion XL 1.0, insbesondere bei der Übereinstimmung von Textbeschreibung und generiertem Bild sowie bei detaillierten Prompts.
  • Trotz Verbesserungen gibt es noch Schwächen bei Aufgaben, die numerisches und räumliches Schlussfolgern erfordern. Imagen 3 ist in den USA über ImageFX verfügbar, in Deutschland bisher nicht.

Google hat mit Imagen 3 ein neues KI-Modell zur Bilderzeugung aus Textbeschreibungen veröffentlicht. Laut Google übertrifft es in Qualität und Detailtreue alle bisherigen Modelle.

Google hatte Imagen 3 im Mai vorgestellt und im Juni ersten Testern zur Verfügung gestellt. Mittlerweile ist das Modell - zumindest in einigen Ländern - frei über ImageFX verfügbar. Deutschland gehört bisher nicht dazu.

Mit der Veröffentlichung gibt es ein Paper. Demnach setzt Imagen 3 in puncto Qualität und Detailtreue einen neuen Maßstab für Text-zu-Bild-Modelle.

Imagen 3 schneidet in Googles Evaluierungen besser als die Konkurrenz ab

Imagen 3 wurde mit einem großen Datensatz aus Bildern, Texten und Annotationen trainiert. Die Daten durchliefen einen mehrstufigen Filterungsprozess, um unsichere, gewalttätige oder qualitativ minderwertige Inhalte sowie KI-generierte Bilder zu entfernen. Zudem wurden Duplikate entfernt und ähnliche Bilder abgewertet.

In Googles menschlichen und automatischen Evaluierungen schnitt Imagen 3 besser ab als Imagen 2, DALL-E 3, Midjourney v6, Stable Diffusion 3 und Stable Diffusion XL 1.0. Insbesondere bei der Übereinstimmung von Textbeschreibung und generiertem Bild sowie bei detaillierten Prompts war Imagen 3 demnach führend. Vergleiche mit dem kürzlich veröffentlichten FLUX-Modell fehlen.

Die gibt es mittlerweile jedoch auf X - dort hat der Nutzer Dogan Ural Vergleiche zwischen Midjourney, Imagen und FLUX geteilt.

Laut Google gibt es noch Schwächen, etwa bei Aufgaben, die numerisches Schlussfolgern erfordern, beispielsweise beim Generieren einer exakten Anzahl von Objekten. Auch Prompts, die räumliches Schlussfolgern und komplexe Sprache beinhalten, stellen weiter eine Herausforderung dar.

Imagen 3 ist in den USA über ImageFX verfügbar.

Source: Google

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren