Inhalt
summary Zusammenfassung

DeepFloyd IF ist ein Text-zu-Bild-Modell, das besonders gut mit Text umgehen kann. Das Team ist an Stability AI angegliedert und nennt als Vorbild Googles Imagen.

Im Mai 2022 zeigte Google Imagen, ein Text-zu-Bild-Modell, das das damals gerade veröffentlichte DALL-E 2 von OpenAI übertraf. Laut dem Team und den gezeigten Beispielen schlug das Modell DALL-E in der Genauigkeit und Qualität der Text-zu-Bild-Synthese. Es war auch in der Lage, Text in Bildern zu generieren, eine Fähigkeit, die bisher von keinem Open-Source-Modell zuverlässig beherrscht wird.

Wie bei anderen generativen KI-Modellen wie Stable Diffusion oder DALL-E 2 setzte das Google-Team auf einen eingefrorenen Text-Encoder, der Textprompts in Embeddings umwandelt, die dann von einem Diffusionsmodell in ein Bild transformiert werden. Im Gegensatz zu anderen Modellen verwendet Imagen jedoch nicht das multimodal trainierte CLIP, sondern das große Sprachmodell T5-XXL. Das Team konnte sogar zeigen, dass die Qualität der erzeugten Bilder mit zunehmender Größe des Sprachmodells stärker zunimmt als mit zunehmendem Training des eigentlich für die Bildsynthese zuständigen Diffusionsmodells.

DeepFloyd IF ist ein Open-Source-Imagen

Jetzt hat das DeepFloyd-Team, das mit StabilityAI verbunden ist, diese Architektur nachgebildet und eine Art Open-Source-Imagen namens IF veröffentlicht. IF zeigt nach Angaben des Teams die hohe Bildqualität von Imagen und das von T5-XXL gelieferte Sprachverständnis. Das Modell wurde mit rund 1,2 Milliarden Bildern aus dem LAION-5B-Datensatz trainiert.

Anzeige
Anzeige
Die Architektur von IF gleicht der von Googles Imagen. | Bild: DeepFloyd

In Tests übertrifft es sogar Google Imagen und erreicht einen Zero-Shot-FID-Wert von 6,66 im COCO-Datensatz und liegt damit auch vor anderen verfügbaren Modellen wie Stable Diffusion.

Nach Angaben des Teams unterstützt IF auch Image-to-Image-Translation und Impainting.

Video: DeepFloyd

DeepFloyd IF setzt ebenfalls wie Imagen auf zwei Superresolution-Modelle, die die Auflösung der Bilder auf 1.024 x 1.024 Pixel bringen, und bietet verschiedene Modellgrößen mit bis zu 4,3 Milliarden Parametern an. Für das größte Modell mit Upscaler auf 1.024 Pixel empfiehlt das Team 24 Gigabyte VRAM, das größte Modell mit 256 Pixel Upscaler benötigt noch 16 Gigabyte VRAM.

DeepFloyd zeigt die nächste Stufe der Text-zu-Bild-Synthese

Laut DeepFloyd zeigt die Arbeit das Potenzial größerer UNet-Architekturen in der ersten Stufe von kaskadierten Diffusionsmodellen und damit eine vielversprechende Zukunft für die Text-zu-Bild-Synthese. Mit anderen Worten: DeepFloyds IF zeigt deutlich, dass generative KI noch besser werden kann und dass die Open-Source-Gemeinschaft in Zukunft Modelle wie Googles Parti erreichen könnte, das Imagen in einigen Aspekten noch übertrifft.

Empfehlung

Die erste Version des IF-Modells unterliegt einer eingeschränkten Lizenz, die nur für Forschungszwecke - also nicht-kommerzielle Zwecke - gedacht ist, um vorübergehend Feedback zu sammeln. Nachdem dieses Feedback eingeholt wurde, wir das Team von DeepFloyd und StabilityAI eine völlig kostenlose und auch für kommerzielle Zwecke kompatible Version veröffentlichen.

DeepFloyds IF hat ein Github, eine Demo ist auf HuggingFace verfügbar. Mehr Informationen und Zugang gibt es auf DeepFloyd-Webseite.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • DeepFloyd IF ist eine Open-Source-Variante von Googles Imagen. Das Text-zu-Bild-Modell kann qualitativ hochwertige Bilder generieren und kann besonders gut mit Text umgehen.
  • IF hängt laut dem Team andere Modelle wie Imagen oder Stable Diffusion ab. Das Team ist an StabilityAI angegliedert.
  • IF ist Open-Source und benötigt aktuell zwischen 16 und 24 Gigabyte VRAM für lokale Ausführung.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!