Inhalt
summary Zusammenfassung
Update

DragGAN eröffnet eine völlig neue Kategorie der Bildbearbeitung, bei der fotorealistische Bilder von Nutzer:innen via Drag & Drop angepasst werden. Die Details übernimmt ein GAN.

Heutige Methoden der Bildbearbeitung, etwa mit Werkzeugen wie Photoshop, erfordern ein hohes Maß an Geschicklichkeit, wenn Position, Form, Ausdruck oder Anordnung einzelner Objekte flexibel und präzise gesteuert werden sollen. Eine andere Möglichkeit ist die Erzeugung völlig neuer Bilder durch generative KI wie Stable Diffusion oder GANs, die jedoch wenig Kontrolle bieten.

Mit DragGAN zeigen Forschende des Max-Planck-Instituts für Informatik, des Saarbrücken Research Center for Visual Computing, des MIT CSAIL und von Google nun eine neue Methode, GANs so zu steuern, dass sie die Bildberarbeitung ermöglichen.

DragGAN: Bildbearbeitung per Drag & Drop

DragGAN kann fotorealistische Bilder verarbeiten, sofern die Darstellungen den Kategorien des GAN-Trainingsdatensatzes entsprechen. Dazu gehören beispielsweise Tiere, Autos, Menschen, Zellen oder Landschaften. Nutzer:innen ziehen dann in einem simplen Interface von ihnen festgelegte Punkte in einem Bild an gewünschte Positionen, um etwa die Augen einer Katze zu schließen, den Kopf eines Löwen zu drehen und das Maul zu öffnen oder ein Auto in ein anderes Modell zu verwandeln.

Anzeige
Anzeige

Video: Pan et al.

DragGAN verfolgt diese Punkte und erzeugt Bilder, die den gewünschten Veränderungen entsprechen.

DragGAN "führt in der Regel zu realistischen Ergebnissen"

"Mit DragGAN kann jeder ein Bild mit präziser Kontrolle über die Position der Pixel verformen und so die Pose, die Form, den Ausdruck und das Layout verschiedener Kategorien manipulieren", so das Team. "Da diese Manipulationen auf der gelernten generativen Bildvielfalt eines GAN durchgeführt werden, führen sie in der Regel zu realistischen Ergebnissen, selbst bei schwierigen Szenarien wie der Halluzination verborgener Inhalte und der Verformung von Formen, die konsequent der Rigidität des Objekts folgen."

DragGAN kann Bilder in mehreren Schritten verändern und ist einfach zu steuern. | Bild: Pan et al.

Das Team zeigt in einem Vergleich, dass DragGAN anderen Ansätzen deutlich überlegen ist. Allerdings sind einige Änderungen immer noch von Artefakten begleitet, wenn diese außerhalb der Trainingsverteilung liegen.

Mehr Informationen gibt im Paper, auf Hugging Face oder auf der Projektseite von DragGAN.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • DragGAN ermöglicht die Bearbeitung von Bildern durch Drag & Drop von Punkten im Bild. So lässt sich beispielsweise das Maul eines Löwen öffnen oder ein Auto in ein anderes Modell verwandeln.
  • Im Hintergrund verfolgt DragGAN die Benutzereingaben und generiert passende Bilder für die gewünschten Veränderungen.
  • Sofern die Eingabebilder innerhalb der in den Trainingsdaten der GAN enthaltenen Kategorien liegen, erzeugt DragGAN so fotorealistische Ergebnisse.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!