Googles Bild-KI-Methode Re-Imagen könnte neue Qualitätsstandards setzen

9. November 2022

Google

Generative KI-Systeme wie Stable Diffusion müssen aufwendig nachtrainiert werden, um neue Konzepte zu lernen. Googles Re-Imagen geht einen effizienteren Weg für mehr Bildvielfalt.

OpenAIs DALL-E 2 oder Midjourney erzeugen hochwertige Bilder anhand von Text. Doch ihre generativen Fähigkeiten sind beschränkt auf Objekte oder Stile, die Teil der Trainingsdaten der Unternehmen sind.

Eine beliebte Alternative ist daher das Open-Soure-Modell Stable Diffusion. Es läuft lokal auf der eigenen Grafikkarte und kann - entsprechende Hardware-Ressourcen vorausgesetzt - neue Konzepte wie Stile, Objekte oder Personen lernen.

Erste Versuche nutzen Textual Inversion als Methode für das Nachtraining, doch mittlerweile hat sich Dreambooth als Standard durchgesetzt. Die von Google entwickelte Methode, große Text-zu-Bild-Modelle wie Imagen zu personalisieren, wurde von der Open-Source-Community für Stable Diffusion adaptiert.

Stable Diffusion lässt sich mit eigenen Bildern personalisieren, aber der Aufwand ist hoch

Mit Dreambooth lässt sich Stable Diffusion mit einigen Beispielbildern an die eigenen Bedürfnisse anpassen. Schon mit einigen wenigen Bildern erreicht die Methode gute Ergebnisse. Waren die Hardware-Anforderungen zu Beginn noch extrem, können optimierte Dreambooth-Versionen bereits mit Nvidia-Grafikkarten mit 10 Gigabyte VRAM ausgeführt werden.

Dreambooth is becoming popular for creating custom Stable Diffusion models using your images.

Here is a beginner friendly thread on how it works: 🧵 pic.twitter.com/jlLdOqbWBf

— Divam Gupta (@divamgupta) November 1, 2022

Im Dreambooth-Paper zeigt Google im Vergleich zu DALL-E 2 und Imagen, wie mit der Methode ein generatives KI-Modell etwa ein neues Ziffernblatt eines Weckers lernt.

Mit Dreambooth kann Googles Imagen neue Konzepte lernen. | Bild: Google

Die Ergebnisse sind beeindruckend und auf Twitter teilen zahlreiche Menschen Beispiele, wie umfassend sich Dreambooth nutzen lässt.

Dreambooth löst also ein zentrales Problem generativer KI-Modelle: Sie haben oft Schwierigkeiten, Bilder von ungewöhnlichen und unbekannten Objekten oder Stilen zu erzeugen. Doch die Methode ist nicht unbedingt skalierbar, da jedes Konzept ein rechenintensives Training benötigt.

Googles Re-Imagen zeigt eine skalierbare Alternative zu Dreambooth

Eine Gruppe von Google zeigt nun den Retrieval-Augmented Text-to-Image Generator (Re-Imagen). Mit dieser neuen Methode kann ein generatives KI-Modell seltene oder noch nie gesehene Objekte generieren.

Wie der Name (Retrieval-Augmented) bereits andeutet, bezieht Re-Imagen neue Informationen von einer externen Datenbank, anstatt mit zusätzlichen Daten nachtrainiert zu werden.

Bei einer Textaufforderung greift Re-Imagen auf eine externe multimodale Wissensdatenbank zu, um relevante Paare (Bild, Text) zu finden, und verwendet diese als Referenzen, um das Bild zu erzeugen.

Aus dem Paper

Re-Imagen erhält über den zusätzlichen Input semantische und visuelle Informationen über unbekannte oder seltene Objekte und verbessert so die eigene Genauigkeit bei der Bild-Generierung.

Das Google-Team trainierte Re-Imagen dafür mit einem neuen Datensatz, der drei Modalitäten (Bild, Text und Abfragen) umfasst. So lernte das Modell, für die Generierung Text-Eingabe und Abfragen an die externe Datenbank zu nutzen.

In einigen Beispielen zeigt Google, dass Re-Imagen deutlich bessere Ergebnisse für seltene oder unbekannte Objekte erzielt als Imagen, DALL-E 2 oder Stable Diffusion.

Google Re-Imagen greift auf eine externe Datenbank zu und kann so Bilder seltener oder ungesehener Objekte besser generieren. | Bild: Google

Die neue Methode hat jedoch auch Nachteile: Laut Google ist Re-Imagen sehr sensitiv für die Qualität der externen Bilder, kann in einigen seltenen Fällen trotz Abfrage daneben liegen und verringert die Qualität des Super-Resolution-Modells, was eine niedrigere Bild-Qualität zur Folge hat. Das Team will diese Einschränkungen weiter untersuchen und in einer zukünftigen Arbeit beheben.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Googles Bild-KI-Methode Re-Imagen könnte neue Qualitätsstandards setzen

Stable Diffusion lässt sich mit eigenen Bildern personalisieren, aber der Aufwand ist hoch

Googles Re-Imagen zeigt eine skalierbare Alternative zu Dreambooth

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.