InstructPix2Pix ermöglicht Bildbearbeitung per Textbefehl

InstructPix2Pix zeigt, wie generative KI-Modelle Bilder durch textuelle Beschreibung gezielt verändern können. Innerhalb kürzester Zeit wurde die Methode in aktuelle Werkzeuge integriert.

Der kürzlich von OpenAI veröffentlichte Chat-Bot ChatGPT übertrifft ältere Modelle des Unternehmens in fast allen Aufgaben. Eine zentrale Eigenschaft des Bots: Er folgt in natürlicher Sprache gegebenen Anweisungen besser als bisherige Modelle und kann so beispielsweise bereits generierten Text umformulieren oder Code-Fehler korrigieren.

Das funktioniert, da das zugrundeliegende Modell "text-davinci-003" mit menschlichem Feedback darauf optimiert wurde, Anweisungen zu folgen. ChatGPT wurde dann zusätzlich mit weiterem Feedback trainiert.

GPT-3 und Stable Diffusion für Trainingsdaten kombiniert

Ein ähnlicher Ansatz wurde nun von Forschenden der University of California Berkeley auf den Bereich der Bildverarbeitung übertragen. InstructPix2Pix beschreibt eine Methode, Bilder mit Hilfe von Anweisungen in natürlicher Sprache zu bearbeiten. Dies ermöglicht beispielsweise das Ersetzen von Objekten in Bildern, das Ändern des Bildstils, das Ändern der Einstellung oder des künstlerischen Mediums.

Ähnlich wie bei OpenAI benötigt das Team Trainingsdaten von erfolgreich ausgeführten Befehlen. Im Gegensatz zu OpenAI setzen die Forscherinnen und Forscher jedoch zunächst auf einen nahezu vollständig synthetischen Datensatz.

Für die notwendigen Trainingsdaten kombinierte das Team GPT-3 und Stable Diffusion: Das OpenAI-Sprachmodell erzeugte eine Beschreibung eines Ausgangsbildes, eine Anweisung zur Änderung bestimmter Details des Ausgangsbildes und eine Beschreibung des resultierenden Bildes.

Das Team setzt auf einen synthetischen Datensatz von GPT-3 und Stable Diffusion. | Bild: Brooks, Holynski et al.

Mit diesen beiden Beschreibungen erzeugte das Team dann etwa 100 Bilder mit Stable Diffusion und der Prompt-to-Prompt-Bildmodifikationsmethode, die dann mit CLIP auf zwei ähnliche Varianten reduziert wurden, die den gewünschten Modifikationen entsprachen.

Anschließend trainierte das Team das InstructPix2Pix-Modell mit dem vollständig von der KI generierten Datensatz. Er umfasst mehr als 450.000 Stable Diffusion-Bildpaare und die entsprechenden GPT-3-Veränderungsanweisungen.

InstructPix2Pix zeigt beeindruckende Fähigkeiten trotz synthetischem Datensatz

Trotz des Trainings mit ausschließlich synthetisch generiertem Material könne das Modell problemlos mit beliebigen Eingaben und Bildern von Nutzer:innen umgehen, so das Team. InstructPix2Pix könne auch Bilder in Sekundenschnelle verändern.

Empfehlung

KI-Forschung

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

InstructPix2Pix kann Stile verändern, einzelne Objekte verändern oder Hintergründe austauschen. Bild: Brooks, Holynski et al.

Natürlich ist InstructPix2Pix noch weit von der Perfektion entfernt. Insbesondere kämpft das Modell mit Anweisungen, die beispielsweise die Anzahl der Objekte ändern oder ein räumliches Verständnis erfordern, so die Forschenden. Um das Modell weiter zu verbessern, sei menschliches Feedback ein wichtiger Bereich zukünftiger Arbeit.

InstructPix2Pix ausprobieren

Die Forschenden haben ihr Modell auf Hugging Face zur Verfügung gestellt, erste Umsetzungen für verbreitete Stable-Diffusion-GUI wie NMKD oder Auto1111 exisiteren bereits. Auch Playground AI scheint das Modell bereits zur Verfügung zu stellen. Dort kann es nach kostenloser Registrierung ausprobiert werden.

Introducing AI-first image editing to Playground—a way to instruct an AI to synthesize spectacular yet subtle edits

Try it here: https://t.co/pRmwNfsfzg

Example: "Make it a ferrari" pic.twitter.com/9Lq3Aqn9AM

— Playground AI (@playground_ai) January 24, 2023

KI-Bildbearbeitung in Photoshop

Abgesehen davon, dass es sich um einen aktuellen Benchmark für das Potenzial von KI handelt, sind diese wissenschaftlichen Fortschritte langfristig vor allem für die Fotoindustrie interessant.

Der Branchenführer Adobe setzt maschinelles Lernen schon lange in seinen Produkten ein: Im Jahr 2021 erweiterte das US-Unternehmen Photoshop unter dem Namen "Neural Filter" um Funktionen, mit denen sich beispielsweise die Jahreszeit einer Landschaft mit einem Klick ändern lässt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mit Methoden wie InstructPix2Pix und bereits verfügbaren Stable-Diffusion-Umsetzungen für Photoshop könnten sich Arbeitsprozesse in der Grafikindustrie grundlegend und schnell verändern.

InstructPix2Pix ermöglicht Bildbearbeitung per Textbefehl

GPT-3 und Stable Diffusion für Trainingsdaten kombiniert

InstructPix2Pix zeigt beeindruckende Fähigkeiten trotz synthetischem Datensatz

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

InstructPix2Pix ausprobieren

KI-Bildbearbeitung in Photoshop

"Object Images": Forscher packen komplexe 3D-Modelle in 64x64-Pixel-Bilder

KI-Modell CLAY erzeugt detaillierte 3D-Objekte aus Text und Bildern

KI in der Filmindustrie: "Echtes Talent bleibt entscheidend"

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

InstructPix2Pix ermöglicht Bildbearbeitung per Textbefehl

GPT-3 und Stable Diffusion für Trainingsdaten kombiniert

InstructPix2Pix zeigt beeindruckende Fähigkeiten trotz synthetischem Datensatz

InstructPix2Pix ausprobieren

KI-Bildbearbeitung in Photoshop

Artikel teilen

Bankverbindung