PhotoDoodle verändert Bilder präzise per Textanweisung

25. Februar 2025

Huang et al.

Forschende von Universitäten aus China und Singapur sowie von ByteDance haben die Bildbearbeitungs-KI PhotoDoodle vorgestellt. Das Modell lernt aus wenigen Beispielbildern verschiedene Stile und setzt Bearbeitungsprompts erstaunlich treffsicher um.

Die Grundlage bildet das Bildgenerierungsmodell Flux.1 des deutschen Start-ups Black Forest Labs. PhotoDoodle nutzt dessen Diffusion-Transformer-Architektur und die bereits gelernten Parameter.

Flux.1 als Basis

In einem ersten Schritt trainieren die Forscher:innen OmniEditor, eine über LoRA (Low-Rank Adaptation) auf die Bildverarbeitung abgestimmte Variante von Flux.1. LoRA verändert nicht direkt alle Gewichte des Netzwerks, sondern fügt nur kleine, spezialisierte Matrizen (Low-Rank Matrizen) hinzu. Diese können trainiert werden, ohne das ursprüngliche Modell drastisch zu verändern. Dies ermöglicht kleine Änderungen wie neue Konzepte bis hin zu kompletten Funktions- oder Stiländerungen. Letztere erfordern allerdings größere Varianten der eigentlich kleinen Netze - wie im Fall von OmniEditor.

Den dafür nötigen SeedEdit-Datensatz bezieht das Team mutmaßlich aus den Experimenten des gleichnamigen Bildbearbeitungsmodells, das ebenfalls von Byte Dance stammt und im letzten Jahr vorgestellt wurde. Die Herkunft des SeedEdit-Datensatzes wird im Paper nicht näher beschrieben.

Vergleichsdarstellung von acht Bildpaaren: Originalfotos und deren künstlerische Bearbeitungen mit digitalen Doodles, magischen Effekten und dekorativen Elementen. — PhotoDoodle fügt spielerische Elemente wie Monster, magische Effekte und dekorative Illustrationen hinzu, während die ursprüngliche Bildkomposition erhalten bleibt. | Bild: Huang et al.

Anschließend wird OmniEditor mit einer LoRA-Variante namens EditLoRA auf den Stil einzelner Künstler:innen trainiert. Anhand weniger, ausgewählter Bildpaare lernt EditLoRA die Feinheiten des jeweiligen Stils. Die Trainingsdaten sind laut dem Paper in Zusammenarbeit mit den Künstler:innen entstanden.

Diese Methode ist notwendig, um dekorative Elemente harmonisch in Bilder einzufügen. Dabei müssen Perspektive, Kontext und der gewünschte Stil stimmen. Bisherige Methoden, die entweder den gesamten Stil eines Bildes veränderten oder nur kleine Bereiche bearbeiteten, konnten dieses Problem laut den Forschenden nicht zufriedenstellend lösen.

KI merkt sich Pixel-Positionen

Ein wichtiger Bestandteil von PhotoDoodle ist das sogenannte "Position Encoding Cloning". Vereinfacht gesagt, merkt sich die KI die Position jedes einzelnen Pixels im Originalbild.

Bildmatrix mit fünf Reihen: Originalfotos und deren Variationen mit Cartoon-Monstern, Umrisslinien, 3D-Effekten und fließenden Farbblöcken in verschiedenen künstlerischen Stilen. — PhotoDoodle transformiert Alltagsfotos durch verschiedene künstlerische Stile - von niedlichen Cartoon-Monstern über handgezeichnete Linien bis hin zu Farbeffekten. | Bild: Huang et al.

Wenn dann neue Elemente hinzugefügt werden, verwendet PhotoDoodle diese gespeicherten Positionsinformationen, um die neuen Elemente genau an der richtigen Stelle zu platzieren und sie harmonisch in das Bild einzufügen. Der Vorteil dieser Technik ist, dass keine zusätzlichen Parameter trainiert werden müssen, was den Prozess effizienter macht.

Wichtig ist auch, dass die Eingabedaten für PhotoDoodle "rauschfrei" sind. Das bedeutet, dass das Originalbild von hoher Qualität sein muss, damit der Hintergrund bei der Bearbeitung nicht versehentlich verändert wird.

Neuer State-of-the-Art für Bildbearbeitung

Die Forschenden führten umfangreiche Experimente durch, um die Leistungsfähigkeit und Robustheit von PhotoDoodle zu demonstrieren. Das System konnte Prompts wie "Mache die Katze etwas weißer" oder "Füge ein rosa Monster hinzu, das auf das Gebäude klettert" präzise umsetzen.

Im Vergleich mit bestehenden Methoden erzielte PhotoDoodle bessere Ergebnisse in verschiedenen Benchmarks, die Aspekte wie die Ähnlichkeit zwischen Bild und Textbeschreibung messen. Besonders bei der individuellen Bildbearbeitung, aber auch bei globalen Veränderungen übertraf PhotoDoodle die Vergleichsmodelle deutlich.

Vergleichsmatrix: Vier KI-Systeme bearbeiten Katzen- und Architekturfotos nach identischen Anweisungen, aufgeteilt in universelle und spezifische Bildbearbeitung. — Der Vergleich von PhotoDoodle mit bestehenden KI-Bildbearbeitungssysteme zeigt deutliche Unterschiede in der Umsetzungsqualität spezifischer Prompts. | Bild: Huang et al.

Ziel: Training aus nur einem Bildpaar

Das Forschungsteam räumt ein, dass PhotoDoodle noch auf die Sammlung von dutzenden Bildpaaren und tausende Trainingsschritte angewiesen ist. In Zukunft wollen die Forschenden versuchen, Stile aus nur einem Bildpaar zu lernen.

Um die Forschung zu diesem Thema voranzutreiben, haben die Wissenschaftler:innen einen Datensatz mit sechs verschiedenen künstlerischen Stilen und über 300 Bildpaaren veröffentlicht. Der Code ist auf GitHub verfügbar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren