Inhalt
summary Zusammenfassung

Forschende von Universitäten aus China und Singapur sowie von ByteDance haben die Bildbearbeitungs-KI PhotoDoodle vorgestellt. Das Modell lernt aus wenigen Beispielbildern verschiedene Stile und setzt Bearbeitungsprompts erstaunlich treffsicher um.

Anzeige

Die Grundlage bildet das Bildgenerierungsmodell Flux.1 des deutschen Start-ups Black Forest Labs. PhotoDoodle nutzt dessen Diffusion-Transformer-Architektur und die bereits gelernten Parameter.

Flux.1 als Basis

In einem ersten Schritt trainieren die Forscher:innen OmniEditor, eine über LoRA (Low-Rank Adaptation) auf die Bildverarbeitung abgestimmte Variante von Flux.1. LoRA verändert nicht direkt alle Gewichte des Netzwerks, sondern fügt nur kleine, spezialisierte Matrizen (Low-Rank Matrizen) hinzu. Diese können trainiert werden, ohne das ursprüngliche Modell drastisch zu verändern. Dies ermöglicht kleine Änderungen wie neue Konzepte bis hin zu kompletten Funktions- oder Stiländerungen. Letztere erfordern allerdings größere Varianten der eigentlich kleinen Netze - wie im Fall von OmniEditor.

Den dafür nötigen SeedEdit-Datensatz bezieht das Team mutmaßlich aus den Experimenten des gleichnamigen Bildbearbeitungsmodells, das ebenfalls von Byte Dance stammt und im letzten Jahr vorgestellt wurde. Die Herkunft des SeedEdit-Datensatzes wird im Paper nicht näher beschrieben.

Anzeige
Anzeige
Vergleichsdarstellung von acht Bildpaaren: Originalfotos und deren künstlerische Bearbeitungen mit digitalen Doodles, magischen Effekten und dekorativen Elementen.
PhotoDoodle fügt spielerische Elemente wie Monster, magische Effekte und dekorative Illustrationen hinzu, während die ursprüngliche Bildkomposition erhalten bleibt. | Bild: Huang et al.

Anschließend wird OmniEditor mit einer LoRA-Variante namens EditLoRA auf den Stil einzelner Künstler:innen trainiert. Anhand weniger, ausgewählter Bildpaare lernt EditLoRA die Feinheiten des jeweiligen Stils. Die Trainingsdaten sind laut dem Paper in Zusammenarbeit mit den Künstler:innen entstanden.

Diese Methode ist notwendig, um dekorative Elemente harmonisch in Bilder einzufügen. Dabei müssen Perspektive, Kontext und der gewünschte Stil stimmen. Bisherige Methoden, die entweder den gesamten Stil eines Bildes veränderten oder nur kleine Bereiche bearbeiteten, konnten dieses Problem laut den Forschenden nicht zufriedenstellend lösen.

KI merkt sich Pixel-Positionen

Ein wichtiger Bestandteil von PhotoDoodle ist das sogenannte "Position Encoding Cloning". Vereinfacht gesagt, merkt sich die KI die Position jedes einzelnen Pixels im Originalbild.

Bildmatrix mit fünf Reihen: Originalfotos und deren Variationen mit Cartoon-Monstern, Umrisslinien, 3D-Effekten und fließenden Farbblöcken in verschiedenen künstlerischen Stilen.
PhotoDoodle transformiert Alltagsfotos durch verschiedene künstlerische Stile - von niedlichen Cartoon-Monstern über handgezeichnete Linien bis hin zu Farbeffekten. | Bild: Huang et al.

Wenn dann neue Elemente hinzugefügt werden, verwendet PhotoDoodle diese gespeicherten Positionsinformationen, um die neuen Elemente genau an der richtigen Stelle zu platzieren und sie harmonisch in das Bild einzufügen. Der Vorteil dieser Technik ist, dass keine zusätzlichen Parameter trainiert werden müssen, was den Prozess effizienter macht.

Wichtig ist auch, dass die Eingabedaten für PhotoDoodle "rauschfrei" sind. Das bedeutet, dass das Originalbild von hoher Qualität sein muss, damit der Hintergrund bei der Bearbeitung nicht versehentlich verändert wird.

Empfehlung

Neuer State-of-the-Art für Bildbearbeitung

Die Forschenden führten umfangreiche Experimente durch, um die Leistungsfähigkeit und Robustheit von PhotoDoodle zu demonstrieren. Das System konnte Prompts wie "Mache die Katze etwas weißer" oder "Füge ein rosa Monster hinzu, das auf das Gebäude klettert" präzise umsetzen.

Im Vergleich mit bestehenden Methoden erzielte PhotoDoodle bessere Ergebnisse in verschiedenen Benchmarks, die Aspekte wie die Ähnlichkeit zwischen Bild und Textbeschreibung messen. Besonders bei der individuellen Bildbearbeitung, aber auch bei globalen Veränderungen übertraf PhotoDoodle die Vergleichsmodelle deutlich.

Vergleichsmatrix: Vier KI-Systeme bearbeiten Katzen- und Architekturfotos nach identischen Anweisungen, aufgeteilt in universelle und spezifische Bildbearbeitung.
Der Vergleich von PhotoDoodle mit bestehenden KI-Bildbearbeitungssysteme zeigt deutliche Unterschiede in der Umsetzungsqualität spezifischer Prompts. | Bild: Huang et al.

Ziel: Training aus nur einem Bildpaar

Das Forschungsteam räumt ein, dass PhotoDoodle noch auf die Sammlung von dutzenden Bildpaaren und tausende Trainingsschritte angewiesen ist. In Zukunft wollen die Forschenden versuchen, Stile aus nur einem Bildpaar zu lernen.

Um die Forschung zu diesem Thema voranzutreiben, haben die Wissenschaftler:innen einen Datensatz mit sechs verschiedenen künstlerischen Stilen und über 300 Bildpaaren veröffentlicht. Der Code ist auf GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende von Universitäten in China und Singapur sowie von ByteDance haben die KI PhotoDoodle entwickelt, die aus wenigen Beispielbildern verschiedene Stile lernt und Bearbeitungsprompts präzise auf Eingabebilder anwendet.
  • PhotoDoodle basiert auf dem Bildgenerierungsmodell Flux.1 von Black Forest Labs und nutzt dessen Architektur und vortrainierte Parameter. Ein allgemeines Bildbearbeitungsmodell namens OmniEditor wird zunächst mit einem eigens erstellten Datensatz trainiert und dann auf spezifische Künstlerstile angepasst.
  • In Experimenten erzielte PhotoDoodle bessere Ergebnisse als bestehende Methoden bei der Umsetzung von Bearbeitungsprompts. Die Forschenden haben einen Datensatz mit über 300 Bildpaaren in sechs Stilen veröffentlicht, um die weitere Forschung zu diesem Thema voranzutreiben.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!