InstructPix2Pix ermöglicht Bildbearbeitung per Textbefehl

26. Januar 2023

Josh Berquist/PlatformAI prompted by THE DECODER

InstructPix2Pix zeigt, wie generative KI-Modelle Bilder durch textuelle Beschreibung gezielt verändern können. Innerhalb kürzester Zeit wurde die Methode in aktuelle Werkzeuge integriert.

Der kürzlich von OpenAI veröffentlichte Chat-Bot ChatGPT übertrifft ältere Modelle des Unternehmens in fast allen Aufgaben. Eine zentrale Eigenschaft des Bots: Er folgt in natürlicher Sprache gegebenen Anweisungen besser als bisherige Modelle und kann so beispielsweise bereits generierten Text umformulieren oder Code-Fehler korrigieren.

Das funktioniert, da das zugrundeliegende Modell "text-davinci-003" mit menschlichem Feedback darauf optimiert wurde, Anweisungen zu folgen. ChatGPT wurde dann zusätzlich mit weiterem Feedback trainiert.

GPT-3 und Stable Diffusion für Trainingsdaten kombiniert

Ein ähnlicher Ansatz wurde nun von Forschenden der University of California Berkeley auf den Bereich der Bildverarbeitung übertragen. InstructPix2Pix beschreibt eine Methode, Bilder mit Hilfe von Anweisungen in natürlicher Sprache zu bearbeiten. Dies ermöglicht beispielsweise das Ersetzen von Objekten in Bildern, das Ändern des Bildstils, das Ändern der Einstellung oder des künstlerischen Mediums.

Ähnlich wie bei OpenAI benötigt das Team Trainingsdaten von erfolgreich ausgeführten Befehlen. Im Gegensatz zu OpenAI setzen die Forscherinnen und Forscher jedoch zunächst auf einen nahezu vollständig synthetischen Datensatz.

Für die notwendigen Trainingsdaten kombinierte das Team GPT-3 und Stable Diffusion: Das OpenAI-Sprachmodell erzeugte eine Beschreibung eines Ausgangsbildes, eine Anweisung zur Änderung bestimmter Details des Ausgangsbildes und eine Beschreibung des resultierenden Bildes.

Das Team setzt auf einen synthetischen Datensatz von GPT-3 und Stable Diffusion. | Bild: Brooks, Holynski et al.

Mit diesen beiden Beschreibungen erzeugte das Team dann etwa 100 Bilder mit Stable Diffusion und der Prompt-to-Prompt-Bildmodifikationsmethode, die dann mit CLIP auf zwei ähnliche Varianten reduziert wurden, die den gewünschten Modifikationen entsprachen.

Anschließend trainierte das Team das InstructPix2Pix-Modell mit dem vollständig von der KI generierten Datensatz. Er umfasst mehr als 450.000 Stable Diffusion-Bildpaare und die entsprechenden GPT-3-Veränderungsanweisungen.

InstructPix2Pix zeigt beeindruckende Fähigkeiten trotz synthetischem Datensatz

Trotz des Trainings mit ausschließlich synthetisch generiertem Material könne das Modell problemlos mit beliebigen Eingaben und Bildern von Nutzer:innen umgehen, so das Team. InstructPix2Pix könne auch Bilder in Sekundenschnelle verändern.

InstructPix2Pix kann Stile verändern, einzelne Objekte verändern oder Hintergründe austauschen. Bild: Brooks, Holynski et al.

Natürlich ist InstructPix2Pix noch weit von der Perfektion entfernt. Insbesondere kämpft das Modell mit Anweisungen, die beispielsweise die Anzahl der Objekte ändern oder ein räumliches Verständnis erfordern, so die Forschenden. Um das Modell weiter zu verbessern, sei menschliches Feedback ein wichtiger Bereich zukünftiger Arbeit.

InstructPix2Pix ausprobieren

Die Forschenden haben ihr Modell auf Hugging Face zur Verfügung gestellt, erste Umsetzungen für verbreitete Stable-Diffusion-GUI wie NMKD oder Auto1111 exisiteren bereits. Auch Playground AI scheint das Modell bereits zur Verfügung zu stellen. Dort kann es nach kostenloser Registrierung ausprobiert werden.

Introducing AI-first image editing to Playground—a way to instruct an AI to synthesize spectacular yet subtle edits

Try it here: https://t.co/pRmwNfsfzg

Example: "Make it a ferrari" pic.twitter.com/9Lq3Aqn9AM

— Playground (@playground_ai) January 24, 2023

KI-Bildbearbeitung in Photoshop

Abgesehen davon, dass es sich um einen aktuellen Benchmark für das Potenzial von KI handelt, sind diese wissenschaftlichen Fortschritte langfristig vor allem für die Fotoindustrie interessant.

Der Branchenführer Adobe setzt maschinelles Lernen schon lange in seinen Produkten ein: Im Jahr 2021 erweiterte das US-Unternehmen Photoshop unter dem Namen "Neural Filter" um Funktionen, mit denen sich beispielsweise die Jahreszeit einer Landschaft mit einem Klick ändern lässt.

Mit Methoden wie InstructPix2Pix und bereits verfügbaren Stable-Diffusion-Umsetzungen für Photoshop könnten sich Arbeitsprozesse in der Grafikindustrie grundlegend und schnell verändern.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren