Inhalt
summary Zusammenfassung

Generative KI-Systeme wie Stable Diffusion müssen aufwendig nachtrainiert werden, um neue Konzepte zu lernen. Googles Re-Imagen geht einen effizienteren Weg für mehr Bildvielfalt.

Anzeige

OpenAIs DALL-E 2 oder Midjourney erzeugen hochwertige Bilder anhand von Text. Doch ihre generativen Fähigkeiten sind beschränkt auf Objekte oder Stile, die Teil der Trainingsdaten der Unternehmen sind.

Eine beliebte Alternative ist daher das Open-Soure-Modell Stable Diffusion. Es läuft lokal auf der eigenen Grafikkarte und kann - entsprechende Hardware-Ressourcen vorausgesetzt -  neue Konzepte wie Stile, Objekte oder Personen lernen.

Erste Versuche nutzen Textual Inversion als Methode für das Nachtraining, doch mittlerweile hat sich Dreambooth als Standard durchgesetzt. Die von Google entwickelte Methode, große Text-zu-Bild-Modelle wie Imagen zu personalisieren, wurde von der Open-Source-Community für Stable Diffusion adaptiert.

Anzeige
Anzeige

Stable Diffusion lässt sich mit eigenen Bildern personalisieren, aber der Aufwand ist hoch

Mit Dreambooth lässt sich Stable Diffusion mit einigen Beispielbildern an die eigenen Bedürfnisse anpassen. Schon mit einigen wenigen Bildern erreicht die Methode gute Ergebnisse. Waren die Hardware-Anforderungen zu Beginn noch extrem, können optimierte Dreambooth-Versionen bereits mit Nvidia-Grafikkarten mit 10 Gigabyte VRAM ausgeführt werden.

Im Dreambooth-Paper zeigt Google im Vergleich zu DALL-E 2 und Imagen, wie mit der Methode ein generatives KI-Modell etwa ein neues Ziffernblatt eines Weckers lernt.

Mit Dreambooth kann Googles Imagen neue Konzepte lernen. | Bild: Google

Die Ergebnisse sind beeindruckend und auf Twitter teilen zahlreiche Menschen Beispiele, wie umfassend sich Dreambooth nutzen lässt.

Dreambooth löst also ein zentrales Problem generativer KI-Modelle: Sie haben oft Schwierigkeiten, Bilder von ungewöhnlichen und unbekannten Objekten oder Stilen zu erzeugen. Doch die Methode ist nicht unbedingt skalierbar, da jedes Konzept ein rechenintensives Training benötigt.

Empfehlung

Googles Re-Imagen zeigt eine skalierbare Alternative zu Dreambooth

Eine Gruppe von Google zeigt nun den Retrieval-Augmented Text-to-Image Generator (Re-Imagen). Mit dieser neuen Methode kann ein generatives KI-Modell seltene oder noch nie gesehene Objekte generieren.

Wie der Name (Retrieval-Augmented) bereits andeutet, bezieht Re-Imagen neue Informationen von einer externen Datenbank, anstatt mit zusätzlichen Daten nachtrainiert zu werden.

Bei einer Textaufforderung greift Re-Imagen auf eine externe multimodale Wissensdatenbank zu, um relevante Paare (Bild, Text) zu finden, und verwendet diese als Referenzen, um das Bild zu erzeugen.

Aus dem Paper

Re-Imagen erhält über den zusätzlichen Input semantische und visuelle Informationen über unbekannte oder seltene Objekte und verbessert so die eigene Genauigkeit bei der Bild-Generierung.

Das Google-Team trainierte Re-Imagen dafür mit einem neuen Datensatz, der drei Modalitäten (Bild, Text und Abfragen) umfasst. So lernte das Modell, für die Generierung Text-Eingabe und Abfragen an die externe Datenbank zu nutzen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

In einigen Beispielen zeigt Google, dass Re-Imagen deutlich bessere Ergebnisse für seltene oder unbekannte Objekte erzielt als Imagen, DALL-E 2 oder Stable Diffusion.

Google Re-Imagen greift auf eine externe Datenbank zu und kann so Bilder seltener oder ungesehener Objekte besser generieren. | Bild: Google

Die neue Methode hat jedoch auch Nachteile: Laut Google ist Re-Imagen sehr sensitiv für die Qualität der externen Bilder, kann in einigen seltenen Fällen trotz Abfrage daneben liegen und verringert die Qualität des Super-Resolution-Modells, was eine niedrigere Bild-Qualität zur Folge hat. Das Team will diese Einschränkungen weiter untersuchen und in einer zukünftigen Arbeit beheben.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Generative KI-Modelle für Text-zu-Bild haben Schwierigkeiten, Bilder seltener oder ungesehener Objekte zu generieren. Ein Nachtraining ist möglich, aber technisch aufwendig.
  • Googles Re-Imagen greift dafür auf eine externe Datenbank zu, in der die KI Referenzbilder und Beschreibungen seltener oder neuer Objekte findet und in den generativen Prozess einbezieht.
  • Re-Imagen erzeugt deutlich genauere Bilder unbekannter Objekte als Alternativen wie Imagen oder DALL-E 2.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!