GaussiGAN: Ob die Giraffe richtig steht, seht ihr, wenn KI angeht

Forscher unter anderem von Adobe zeigen eine GAN-KI, die 3D-Repräsentationen von Objekten lernt und diese anschließend in Bildern positionieren kann.

Über ein archaisch wirkendes Werkzeug platziert ein Forscher eine rudimentäre 3D-Form einer Giraffe in das Bild einer Savanne. Per Knopfdruck generiert die KI anschließend eine texturierte Giraffe, deren Ausleuchtung sich automatisch der des Bildes anpasst.

Was wirkt wie eine Mischung aus 90er-Jahre Science-Fiction und 3D-Clipart-Spielerei, könnte in Zukunft die Bildbearbeitung im großen Stil verändern: Die von einem KI-System gelernten 3D-Repräsentation der Giraffe verfügt über Abschnitte für Hals, Beine, Rücken, Brust und Rumpf und kann so in verschiedene Körperpositionen gebracht werden - mal dreht sich der Hals, mal beugt er sich zu einem Baum. Die generierte Textur passt sich dabei immer automatisch der neuen Körperhaltung an. Und das alles per Mausklick.

Das System heißt GaussiGAN und setzt auf ein Generative Adversarial Network (Erklärung). Die an der Entwicklung beteiligten Forscher arbeiten für die University of Bath, die Cornell University, dem Ulsan National Institute of Science and Technology, die Brown University und für den Bildbearbeitungsspezialisten Adobe. Der könnte die KI-Technologie sicher gut in seine Bildbearbeitungsprogramme integrieren.

GaussiGAN kann mehr als Giraffen

GaussiGAN lernt die flexibel anpassbaren 3D-Repräsentationen von Objekten anhand von mehreren 2D-Bildern, die Objekte aus unterschiedlichen Blickwinkeln während einer Bewegung zeigen. Durch die Veränderungen in der Körperhaltung und die verschiedenen Blickwinkel lernt das Netz immer genauere, Mannequin-artige Repräsentationen eines Objekts.

So wird im Laufe des KI-Trainings etwa aus einem simplen, dreiteiligen Mischmasch schnell eine erkennbare menschliche Form inklusive Kniegelenk.

3D-Repräsentationen einer Giraffe und einer Person — Die Objekt-Repräsentationen im KI-Modell werden durch das Training zunehmend genauer. Im letzten Bild unten links repräsentiert das Netz etwa ein Knie, da sich die Person dort bewegt hat und so dem Modell die Biomechanik vorführte. | Bild: Mejjati et al.

Neben der Form lernt GaussiGAN auch die Texturierung der Figur aus verschiedenen Blickwinkeln und in verschiedenen Körperhaltungen. Nach dem KI-Training kann die KI so die 3D-Repräsentation in einer neuen Umgebung platzieren und texturieren und dabei sogar die Beleuchtung im Zielbild analysieren und bei der Integration des Objekts beachten.

GaussiGAN kann neben Giraffen auch Personen, Flugzeuge, Roboter und andere Objekte platzieren und erzeugt im Vergleich mit älteren Ansätzen (HoloGAN und PlatonicGAN), die keine veränderbaren 3D-Repräsentationen lernen, deutlich glaubwürdigere Bilder.

Verschiedene KI-Systeme im Vergleich. GaussiGAN generiert deutlich schärfere Bilder — Im direkten Vergleich fällt die bessere Qualität der von GaussiGAN platzierten Objekte deutlich auf. | Bild: Mejjati et al.

Weiterentwicklungen von GaussiGAN sollen in Zukunft auch mit Echtwelt-Aufnahmen trainiert werden können, die keine perfekten Bedingungen für das KI-Training bieten wie etwa wenige Blickwinkel und komplexe Hintergründe, die die Bildanalyse erschweren. Ein so trainiertes robusteres KI-Modell könnte in Bildbearbeitungsprogrammen verlässlich neue Objekte platzieren oder vorhandene neu texturieren.

Empfehlung

KI in der Praxis

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

Ein ausführliches Erklärvideo und weitere Informationen gibt es auf der Webseite des Projekts.

Via: Arxiv

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

GaussiGAN: Ob die Giraffe richtig steht, seht ihr, wenn KI angeht

GaussiGAN kann mehr als Giraffen

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

Weiterlesen über Künstliche Intelligenz:

Salesforce will die Verkehrsleitung im Agenten-Zeitalter übernehmen

OpenAI verschärft Sicherheitsmaßnahmen zum Schutz vor Modell-Diebstahl

Auch Apple verliert Spitzenkraft für KI-Modelle an Meta

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

GaussiGAN: Ob die Giraffe richtig steht, seht ihr, wenn KI angeht

GaussiGAN kann mehr als Giraffen

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung