Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Nvidias eDiffi ist ein generatives KI-Modell für Text-zu-Bild und schlägt laut Nvidia Alternativen wie DALL-E 2 oder Stable Diffusion.

Nach OpenAI, Google, Midjourney und StabilityAI zeigt nun auch Nvidia ein generatives Text-zu-Bild KI-Modell. Bekannte Beispiele für solche Systeme sind DALL-E 2, Midjourney, Imagen oder Stable Diffusion.

Alle großen generativen KI-Modelle im Text-zu-Bild-Bereich sind Diffusion Modelle. In diesen Modellen erfolgt die Bildsynthese über einen iterativen Entrauschungsprozess, der namensgebenden Diffusion. So entstehen aus zufälligem Rauschen schrittweise Bilder.

Nvidias eDiffi setzt auf Denoiser-Experten

In den bisher veröffentlichten oder vorgestellten Varianten wird üblicherweise ein einziges Modell trainiert, alle Bildschritte im kompletten Prozess zu entrauschen. Das jetzt von Nvidia vorgestellte eDiffi-Modell setzt dagegen auf ein Ensemble von Experten-Denoisern, die auf das Entrauschen verschiedener Intervalle des generativen Prozesses spezialisiert sind.

Anzeige
Anzeige
Nvidias eDiffi setzt auf mehrere Expert-Denoiser, die auf verschiedene Schritte im Entrauschungs-Prozess spezialisiert sind. | Bild: Nvidia

Laut Nvidia produziert eDiffi durch die Verwendung der verschiedenen Experten im Vergleich mit DALL-E 2 oder Stable Diffusion bessere Ergebnisse. So kann eDiffi besser Text in Bildern generieren und hält sich in den von Nvidia gezeigten Beispielen besser an die inhaltlichen Vorgaben der ursprünglichen Text-Eingabe.

eDiffi erzeugt laut Nvidia konsistentere Ergebnisse als Alternativen wie DALL-E 2. | Bild: Nvidia

Nvidias Modell setzt auf eine Kombination aus drei Diffusionsmodellen: einem Basismodell, das Bilder mit einer Auflösung von 64x64 synthetisieren kann, und zwei Super-Resolution-Modelle, die die Bilder schrittweise auf eine Auflösung von 256x256 oder 1024x1024 hochrechnen.

eDiffi nutzt drei Diffusion Modelle und verarbeitet unterschiedliche Embeddings. | Bild: Nvidia

Die Modelle berechnen zudem zu den üblichen CLIP Text- und Bild-Embeddings auch T5 Text-Embeddings. T5 ist Googles Text-zu-Text Transformer und ergänzt laut Nvidia die CLIP-Embeddings. Die Kombination der zwei Text-Embeddings erzeugt laut Nvidia detailliertere und besser an der Eingabe orientierte Bilder.

Nvidia eDiffi bietet "Malen mit Worten"

EDiffi kann neben Text-Eingaben ein Referenzbild als Eingabe verarbeiten und dessen Stil für die eigene Bildsynthese nutzen. Nvidia zeigt zusätzlich eine "Malen mit Worten"-Funktion, bei der Benutzer:innen die Position der in der Texteingabeaufforderung erwähnten Objekte kontrollieren können, indem sie zuerst eine Skizze anfertigen, anschließend Wörter auswählen und sie auf das Bild schreiben.

Video: Nvidia

Empfehlung

Nvidia hält sich bedeckt zu zukünftigen Plänen mit eDiffi. Bisher ist lediglich ein Paper verfügbar. Doch die vorgestellten Veränderungen in der Trainings-Pipeline könnten in Zukunft auch für neue Modelle von DALL-E oder Stable Diffusion genutzt werden und dort große Fortschritte bei der Qualität und Kontrolle über die synthetisierten Bilder ermöglichen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia zeigt das generative KI-Modell eDiffi, ein neues Text-zu-Bild-Modell. Laut Nvidia ist es besser als Alternativen wie DALL-E 2 oder Stable Diffusion.
  • Möglich ist das durch ein Ensemble von Experten-Denoisern, die auf das Entrauschen verschiedener Intervalle des generativen Diffusion-Prozesses spezialisiert sind, sowie der Integration von T5-Embeddings zusätzlich zu CLIP-Embeddings.
  • Nvidias eDiffi lässt sich zudem über eine "Malen mit Worten"-Funktion genauer steuern.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!