InstructPix2Pix zeigt, wie generative KI-Modelle Bilder durch textuelle Beschreibung gezielt verändern können. Innerhalb kürzester Zeit wurde die Methode in aktuelle Werkzeuge integriert.
Der kürzlich von OpenAI veröffentlichte Chat-Bot ChatGPT übertrifft ältere Modelle des Unternehmens in fast allen Aufgaben. Eine zentrale Eigenschaft des Bots: Er folgt in natürlicher Sprache gegebenen Anweisungen besser als bisherige Modelle und kann so beispielsweise bereits generierten Text umformulieren oder Code-Fehler korrigieren.
Das funktioniert, da das zugrundeliegende Modell "text-davinci-003" mit menschlichem Feedback darauf optimiert wurde, Anweisungen zu folgen. ChatGPT wurde dann zusätzlich mit weiterem Feedback trainiert.
GPT-3 und Stable Diffusion für Trainingsdaten kombiniert
Ein ähnlicher Ansatz wurde nun von Forschenden der University of California Berkeley auf den Bereich der Bildverarbeitung übertragen. InstructPix2Pix beschreibt eine Methode, Bilder mit Hilfe von Anweisungen in natürlicher Sprache zu bearbeiten. Dies ermöglicht beispielsweise das Ersetzen von Objekten in Bildern, das Ändern des Bildstils, das Ändern der Einstellung oder des künstlerischen Mediums.
Ähnlich wie bei OpenAI benötigt das Team Trainingsdaten von erfolgreich ausgeführten Befehlen. Im Gegensatz zu OpenAI setzen die Forscherinnen und Forscher jedoch zunächst auf einen nahezu vollständig synthetischen Datensatz.
Für die notwendigen Trainingsdaten kombinierte das Team GPT-3 und Stable Diffusion: Das OpenAI-Sprachmodell erzeugte eine Beschreibung eines Ausgangsbildes, eine Anweisung zur Änderung bestimmter Details des Ausgangsbildes und eine Beschreibung des resultierenden Bildes.
Mit diesen beiden Beschreibungen erzeugte das Team dann etwa 100 Bilder mit Stable Diffusion und der Prompt-to-Prompt-Bildmodifikationsmethode, die dann mit CLIP auf zwei ähnliche Varianten reduziert wurden, die den gewünschten Modifikationen entsprachen.
Anschließend trainierte das Team das InstructPix2Pix-Modell mit dem vollständig von der KI generierten Datensatz. Er umfasst mehr als 450.000 Stable Diffusion-Bildpaare und die entsprechenden GPT-3-Veränderungsanweisungen.
InstructPix2Pix zeigt beeindruckende Fähigkeiten trotz synthetischem Datensatz
Trotz des Trainings mit ausschließlich synthetisch generiertem Material könne das Modell problemlos mit beliebigen Eingaben und Bildern von Nutzer:innen umgehen, so das Team. InstructPix2Pix könne auch Bilder in Sekundenschnelle verändern.
Natürlich ist InstructPix2Pix noch weit von der Perfektion entfernt. Insbesondere kämpft das Modell mit Anweisungen, die beispielsweise die Anzahl der Objekte ändern oder ein räumliches Verständnis erfordern, so die Forschenden. Um das Modell weiter zu verbessern, sei menschliches Feedback ein wichtiger Bereich zukünftiger Arbeit.
InstructPix2Pix ausprobieren
Die Forschenden haben ihr Modell auf Hugging Face zur Verfügung gestellt, erste Umsetzungen für verbreitete Stable-Diffusion-GUI wie NMKD oder Auto1111 exisiteren bereits. Auch Playground AI scheint das Modell bereits zur Verfügung zu stellen. Dort kann es nach kostenloser Registrierung ausprobiert werden.
Introducing AI-first image editing to Playground—a way to instruct an AI to synthesize spectacular yet subtle edits
Try it here: https://t.co/pRmwNfsfzg
Example: "Make it a ferrari" pic.twitter.com/9Lq3Aqn9AM
— Playground AI (@playground_ai) January 24, 2023
KI-Bildbearbeitung in Photoshop
Abgesehen davon, dass es sich um einen aktuellen Benchmark für das Potenzial von KI handelt, sind diese wissenschaftlichen Fortschritte langfristig vor allem für die Fotoindustrie interessant.
Der Branchenführer Adobe setzt maschinelles Lernen schon lange in seinen Produkten ein: Im Jahr 2021 erweiterte das US-Unternehmen Photoshop unter dem Namen "Neural Filter" um Funktionen, mit denen sich beispielsweise die Jahreszeit einer Landschaft mit einem Klick ändern lässt.
Mit Methoden wie InstructPix2Pix und bereits verfügbaren Stable-Diffusion-Umsetzungen für Photoshop könnten sich Arbeitsprozesse in der Grafikindustrie grundlegend und schnell verändern.