Skip to content

InstructPix2Pix ermöglicht Bildbearbeitung per Textbefehl

Image description
Josh Berquist/PlatformAI prompted by THE DECODER

Kurz & Knapp

  • KI-Systeme können Bilder anhand von Textbefehlen in natürlicher Sprache generieren. Ebenso können sie bestehende Bilder anhand solcher Befehle verändern.
  • Das funktioniert mit KI-Bildern genauso wie mit Fotos.
  • Die neue Methode InstructPix2Pix veranschaulicht dieses Prinzip - und ist bereits in erste Tools integriert.

InstructPix2Pix zeigt, wie generative KI-Modelle Bilder durch textuelle Beschreibung gezielt verändern können. Innerhalb kürzester Zeit wurde die Methode in aktuelle Werkzeuge integriert.

Der kürzlich von OpenAI veröffentlichte Chat-Bot ChatGPT übertrifft ältere Modelle des Unternehmens in fast allen Aufgaben. Eine zentrale Eigenschaft des Bots: Er folgt in natürlicher Sprache gegebenen Anweisungen besser als bisherige Modelle und kann so beispielsweise bereits generierten Text umformulieren oder Code-Fehler korrigieren.

Das funktioniert, da das zugrundeliegende Modell "text-davinci-003" mit menschlichem Feedback darauf optimiert wurde, Anweisungen zu folgen. ChatGPT wurde dann zusätzlich mit weiterem Feedback trainiert.

GPT-3 und Stable Diffusion für Trainingsdaten kombiniert

Ein ähnlicher Ansatz wurde nun von Forschenden der University of California Berkeley auf den Bereich der Bildverarbeitung übertragen. InstructPix2Pix beschreibt eine Methode, Bilder mit Hilfe von Anweisungen in natürlicher Sprache zu bearbeiten. Dies ermöglicht beispielsweise das Ersetzen von Objekten in Bildern, das Ändern des Bildstils, das Ändern der Einstellung oder des künstlerischen Mediums.

Ähnlich wie bei OpenAI benötigt das Team Trainingsdaten von erfolgreich ausgeführten Befehlen. Im Gegensatz zu OpenAI setzen die Forscherinnen und Forscher jedoch zunächst auf einen nahezu vollständig synthetischen Datensatz.

Für die notwendigen Trainingsdaten kombinierte das Team GPT-3 und Stable Diffusion: Das OpenAI-Sprachmodell erzeugte eine Beschreibung eines Ausgangsbildes, eine Anweisung zur Änderung bestimmter Details des Ausgangsbildes und eine Beschreibung des resultierenden Bildes.

Das Team setzt auf einen synthetischen Datensatz von GPT-3 und Stable Diffusion. | Bild: Brooks, Holynski et al.

Mit diesen beiden Beschreibungen erzeugte das Team dann etwa 100 Bilder mit Stable Diffusion und der Prompt-to-Prompt-Bildmodifikationsmethode, die dann mit CLIP auf zwei ähnliche Varianten reduziert wurden, die den gewünschten Modifikationen entsprachen.

Anschließend trainierte das Team das InstructPix2Pix-Modell mit dem vollständig von der KI generierten Datensatz. Er umfasst mehr als 450.000 Stable Diffusion-Bildpaare und die entsprechenden GPT-3-Veränderungsanweisungen.

InstructPix2Pix zeigt beeindruckende Fähigkeiten trotz synthetischem Datensatz

Trotz des Trainings mit ausschließlich synthetisch generiertem Material könne das Modell problemlos mit beliebigen Eingaben und Bildern von Nutzer:innen umgehen, so das Team. InstructPix2Pix könne auch Bilder in Sekundenschnelle verändern.

InstructPix2Pix kann Stile verändern, einzelne Objekte verändern oder Hintergründe austauschen. Bild: Brooks, Holynski et al.

Natürlich ist InstructPix2Pix noch weit von der Perfektion entfernt. Insbesondere kämpft das Modell mit Anweisungen, die beispielsweise die Anzahl der Objekte ändern oder ein räumliches Verständnis erfordern, so die Forschenden. Um das Modell weiter zu verbessern, sei menschliches Feedback ein wichtiger Bereich zukünftiger Arbeit.

InstructPix2Pix ausprobieren

Die Forschenden haben ihr Modell auf Hugging Face zur Verfügung gestellt, erste Umsetzungen für verbreitete Stable-Diffusion-GUI wie NMKD oder Auto1111 exisiteren bereits. Auch Playground AI scheint das Modell bereits zur Verfügung zu stellen. Dort kann es nach kostenloser Registrierung ausprobiert werden.

KI-Bildbearbeitung in Photoshop

Abgesehen davon, dass es sich um einen aktuellen Benchmark für das Potenzial von KI handelt, sind diese wissenschaftlichen Fortschritte langfristig vor allem für die Fotoindustrie interessant.

Der Branchenführer Adobe setzt maschinelles Lernen schon lange in seinen Produkten ein: Im Jahr 2021 erweiterte das US-Unternehmen Photoshop unter dem Namen "Neural Filter" um Funktionen, mit denen sich beispielsweise die Jahreszeit einer Landschaft mit einem Klick ändern lässt.

Mit Methoden wie InstructPix2Pix und bereits verfügbaren Stable-Diffusion-Umsetzungen für Photoshop könnten sich Arbeitsprozesse in der Grafikindustrie grundlegend und schnell verändern.

Quelle: Hugging Face | Arxiv | Website

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren