Inhalt
summary Zusammenfassung

Google hat mit Imagen 3 ein neues KI-Modell zur Bilderzeugung aus Textbeschreibungen veröffentlicht. Laut Google übertrifft es in Qualität und Detailtreue alle bisherigen Modelle.

Anzeige

Google hatte Imagen 3 im Mai vorgestellt und im Juni ersten Testern zur Verfügung gestellt. Mittlerweile ist das Modell - zumindest in einigen Ländern - frei über ImageFX verfügbar. Deutschland gehört bisher nicht dazu.

Mit der Veröffentlichung gibt es ein Paper. Demnach setzt Imagen 3 in puncto Qualität und Detailtreue einen neuen Maßstab für Text-zu-Bild-Modelle.

Imagen 3 schneidet in Googles Evaluierungen besser als die Konkurrenz ab

Imagen 3 wurde mit einem großen Datensatz aus Bildern, Texten und Annotationen trainiert. Die Daten durchliefen einen mehrstufigen Filterungsprozess, um unsichere, gewalttätige oder qualitativ minderwertige Inhalte sowie KI-generierte Bilder zu entfernen. Zudem wurden Duplikate entfernt und ähnliche Bilder abgewertet.

Anzeige
Anzeige

In Googles menschlichen und automatischen Evaluierungen schnitt Imagen 3 besser ab als Imagen 2, DALL-E 3, Midjourney v6, Stable Diffusion 3 und Stable Diffusion XL 1.0. Insbesondere bei der Übereinstimmung von Textbeschreibung und generiertem Bild sowie bei detaillierten Prompts war Imagen 3 demnach führend. Vergleiche mit dem kürzlich veröffentlichten FLUX-Modell fehlen.

Die gibt es mittlerweile jedoch auf X - dort hat der Nutzer Dogan Ural Vergleiche zwischen Midjourney, Imagen und FLUX geteilt.

Laut Google gibt es noch Schwächen, etwa bei Aufgaben, die numerisches Schlussfolgern erfordern, beispielsweise beim Generieren einer exakten Anzahl von Objekten. Auch Prompts, die räumliches Schlussfolgern und komplexe Sprache beinhalten, stellen weiter eine Herausforderung dar.

Imagen 3 ist in den USA über ImageFX verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google hat mit Imagen 3 ein neues KI-Modell zur Bilderzeugung aus Textbeschreibungen veröffentlicht, das laut Google in Qualität und Detailtreue alle bisherigen Modelle übertrifft.
  • Imagen 3 wurde mit einem großen, mehrstufig gefilterten Datensatz trainiert und schnitt in Googles Evaluierungen besser ab als Imagen 2, DALL-E 3, Midjourney v6, Stable Diffusion 3 und Stable Diffusion XL 1.0, insbesondere bei der Übereinstimmung von Textbeschreibung und generiertem Bild sowie bei detaillierten Prompts.
  • Trotz Verbesserungen gibt es noch Schwächen bei Aufgaben, die numerisches und räumliches Schlussfolgern erfordern. Imagen 3 ist in den USA über ImageFX verfügbar, in Deutschland bisher nicht.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!