Forschende von Universitäten aus China und Singapur sowie von ByteDance haben die Bildbearbeitungs-KI PhotoDoodle vorgestellt. Das Modell lernt aus wenigen Beispielbildern verschiedene Stile und setzt Bearbeitungsprompts erstaunlich treffsicher um.
Die Grundlage bildet das Bildgenerierungsmodell Flux.1 des deutschen Start-ups Black Forest Labs. PhotoDoodle nutzt dessen Diffusion-Transformer-Architektur und die bereits gelernten Parameter.
Flux.1 als Basis
In einem ersten Schritt trainieren die Forscher:innen OmniEditor, eine über LoRA (Low-Rank Adaptation) auf die Bildverarbeitung abgestimmte Variante von Flux.1. LoRA verändert nicht direkt alle Gewichte des Netzwerks, sondern fügt nur kleine, spezialisierte Matrizen (Low-Rank Matrizen) hinzu. Diese können trainiert werden, ohne das ursprüngliche Modell drastisch zu verändern. Dies ermöglicht kleine Änderungen wie neue Konzepte bis hin zu kompletten Funktions- oder Stiländerungen. Letztere erfordern allerdings größere Varianten der eigentlich kleinen Netze - wie im Fall von OmniEditor.
Den dafür nötigen SeedEdit-Datensatz bezieht das Team mutmaßlich aus den Experimenten des gleichnamigen Bildbearbeitungsmodells, das ebenfalls von Byte Dance stammt und im letzten Jahr vorgestellt wurde. Die Herkunft des SeedEdit-Datensatzes wird im Paper nicht näher beschrieben.

Anschließend wird OmniEditor mit einer LoRA-Variante namens EditLoRA auf den Stil einzelner Künstler:innen trainiert. Anhand weniger, ausgewählter Bildpaare lernt EditLoRA die Feinheiten des jeweiligen Stils. Die Trainingsdaten sind laut dem Paper in Zusammenarbeit mit den Künstler:innen entstanden.
Diese Methode ist notwendig, um dekorative Elemente harmonisch in Bilder einzufügen. Dabei müssen Perspektive, Kontext und der gewünschte Stil stimmen. Bisherige Methoden, die entweder den gesamten Stil eines Bildes veränderten oder nur kleine Bereiche bearbeiteten, konnten dieses Problem laut den Forschenden nicht zufriedenstellend lösen.
KI merkt sich Pixel-Positionen
Ein wichtiger Bestandteil von PhotoDoodle ist das sogenannte "Position Encoding Cloning". Vereinfacht gesagt, merkt sich die KI die Position jedes einzelnen Pixels im Originalbild.

Wenn dann neue Elemente hinzugefügt werden, verwendet PhotoDoodle diese gespeicherten Positionsinformationen, um die neuen Elemente genau an der richtigen Stelle zu platzieren und sie harmonisch in das Bild einzufügen. Der Vorteil dieser Technik ist, dass keine zusätzlichen Parameter trainiert werden müssen, was den Prozess effizienter macht.
Wichtig ist auch, dass die Eingabedaten für PhotoDoodle "rauschfrei" sind. Das bedeutet, dass das Originalbild von hoher Qualität sein muss, damit der Hintergrund bei der Bearbeitung nicht versehentlich verändert wird.
Neuer State-of-the-Art für Bildbearbeitung
Die Forschenden führten umfangreiche Experimente durch, um die Leistungsfähigkeit und Robustheit von PhotoDoodle zu demonstrieren. Das System konnte Prompts wie "Mache die Katze etwas weißer" oder "Füge ein rosa Monster hinzu, das auf das Gebäude klettert" präzise umsetzen.
Im Vergleich mit bestehenden Methoden erzielte PhotoDoodle bessere Ergebnisse in verschiedenen Benchmarks, die Aspekte wie die Ähnlichkeit zwischen Bild und Textbeschreibung messen. Besonders bei der individuellen Bildbearbeitung, aber auch bei globalen Veränderungen übertraf PhotoDoodle die Vergleichsmodelle deutlich.

Ziel: Training aus nur einem Bildpaar
Das Forschungsteam räumt ein, dass PhotoDoodle noch auf die Sammlung von dutzenden Bildpaaren und tausende Trainingsschritte angewiesen ist. In Zukunft wollen die Forschenden versuchen, Stile aus nur einem Bildpaar zu lernen.
Um die Forschung zu diesem Thema voranzutreiben, haben die Wissenschaftler:innen einen Datensatz mit sechs verschiedenen künstlerischen Stilen und über 300 Bildpaaren veröffentlicht. Der Code ist auf GitHub verfügbar.