Inhalt
summary Zusammenfassung

InstructPix2Pix zeigt, wie generative KI-Modelle Bilder durch textuelle Beschreibung gezielt verändern können. Innerhalb kürzester Zeit wurde die Methode in aktuelle Werkzeuge integriert.

Der kürzlich von OpenAI veröffentlichte Chat-Bot ChatGPT übertrifft ältere Modelle des Unternehmens in fast allen Aufgaben. Eine zentrale Eigenschaft des Bots: Er folgt in natürlicher Sprache gegebenen Anweisungen besser als bisherige Modelle und kann so beispielsweise bereits generierten Text umformulieren oder Code-Fehler korrigieren.

Das funktioniert, da das zugrundeliegende Modell "text-davinci-003" mit menschlichem Feedback darauf optimiert wurde, Anweisungen zu folgen. ChatGPT wurde dann zusätzlich mit weiterem Feedback trainiert.

GPT-3 und Stable Diffusion für Trainingsdaten kombiniert

Ein ähnlicher Ansatz wurde nun von Forschenden der University of California Berkeley auf den Bereich der Bildverarbeitung übertragen. InstructPix2Pix beschreibt eine Methode, Bilder mit Hilfe von Anweisungen in natürlicher Sprache zu bearbeiten. Dies ermöglicht beispielsweise das Ersetzen von Objekten in Bildern, das Ändern des Bildstils, das Ändern der Einstellung oder des künstlerischen Mediums.

Anzeige
Anzeige

Ähnlich wie bei OpenAI benötigt das Team Trainingsdaten von erfolgreich ausgeführten Befehlen. Im Gegensatz zu OpenAI setzen die Forscherinnen und Forscher jedoch zunächst auf einen nahezu vollständig synthetischen Datensatz.

Für die notwendigen Trainingsdaten kombinierte das Team GPT-3 und Stable Diffusion: Das OpenAI-Sprachmodell erzeugte eine Beschreibung eines Ausgangsbildes, eine Anweisung zur Änderung bestimmter Details des Ausgangsbildes und eine Beschreibung des resultierenden Bildes.

Das Team setzt auf einen synthetischen Datensatz von GPT-3 und Stable Diffusion. | Bild: Brooks, Holynski et al.

Mit diesen beiden Beschreibungen erzeugte das Team dann etwa 100 Bilder mit Stable Diffusion und der Prompt-to-Prompt-Bildmodifikationsmethode, die dann mit CLIP auf zwei ähnliche Varianten reduziert wurden, die den gewünschten Modifikationen entsprachen.

Anschließend trainierte das Team das InstructPix2Pix-Modell mit dem vollständig von der KI generierten Datensatz. Er umfasst mehr als 450.000 Stable Diffusion-Bildpaare und die entsprechenden GPT-3-Veränderungsanweisungen.

InstructPix2Pix zeigt beeindruckende Fähigkeiten trotz synthetischem Datensatz

Trotz des Trainings mit ausschließlich synthetisch generiertem Material könne das Modell problemlos mit beliebigen Eingaben und Bildern von Nutzer:innen umgehen, so das Team. InstructPix2Pix könne auch Bilder in Sekundenschnelle verändern.

Empfehlung
InstructPix2Pix kann Stile verändern, einzelne Objekte verändern oder Hintergründe austauschen. Bild: Brooks, Holynski et al.

Natürlich ist InstructPix2Pix noch weit von der Perfektion entfernt. Insbesondere kämpft das Modell mit Anweisungen, die beispielsweise die Anzahl der Objekte ändern oder ein räumliches Verständnis erfordern, so die Forschenden. Um das Modell weiter zu verbessern, sei menschliches Feedback ein wichtiger Bereich zukünftiger Arbeit.

InstructPix2Pix ausprobieren

Die Forschenden haben ihr Modell auf Hugging Face zur Verfügung gestellt, erste Umsetzungen für verbreitete Stable-Diffusion-GUI wie NMKD oder Auto1111 exisiteren bereits. Auch Playground AI scheint das Modell bereits zur Verfügung zu stellen. Dort kann es nach kostenloser Registrierung ausprobiert werden.

KI-Bildbearbeitung in Photoshop

Abgesehen davon, dass es sich um einen aktuellen Benchmark für das Potenzial von KI handelt, sind diese wissenschaftlichen Fortschritte langfristig vor allem für die Fotoindustrie interessant.

Der Branchenführer Adobe setzt maschinelles Lernen schon lange in seinen Produkten ein: Im Jahr 2021 erweiterte das US-Unternehmen Photoshop unter dem Namen "Neural Filter" um Funktionen, mit denen sich beispielsweise die Jahreszeit einer Landschaft mit einem Klick ändern lässt.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mit Methoden wie InstructPix2Pix und bereits verfügbaren Stable-Diffusion-Umsetzungen für Photoshop könnten sich Arbeitsprozesse in der Grafikindustrie grundlegend und schnell verändern.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • KI-Systeme können Bilder anhand von Textbefehlen in natürlicher Sprache generieren. Ebenso können sie bestehende Bilder anhand solcher Befehle verändern.
  • Das funktioniert mit KI-Bildern genauso wie mit Fotos.
  • Die neue Methode InstructPix2Pix veranschaulicht dieses Prinzip - und ist bereits in erste Tools integriert.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!