Inhalt
summary Zusammenfassung

SDFusion ist ein KI-Framework für die Generierung von 3D-Assets, das Bilder, Text oder Formen als Input verarbeiten kann.

Generative KI-Modelle für 3D-Assets könnten Arbeitsabläufe in der Industrie verändern oder Design- und Programmier-Laien helfen, eigene virtuelle Objekte und Welten zu erstellen. Nvidia-CEO Jensen Huang etwa sieht diesen KI-gestützten Kreativprozess als zentral für die Metaverse-Zukunft an.

Aktuelle KI-Systeme verwenden neurale Rendermethoden wie NeRFs, die 3D-Objekte anhand verschiedener Kameraperspektiven lernen, oder diese, wie Googles Dreamfusion, per Text-Eingabe generieren. Andere Methoden wie CLIP-Mesh erstellen per Diffusionsmodellen Meshs aus Text-Eingaben.

Forschende der University of Illinois Urbana Champagin und Snap Research zeigen jetzt SDFusion, ein multimodales KI-Framework für 3D-Assets.

Anzeige
Anzeige

SDFusion verarbeitet Text, Bild und Formen

Bisherige 3D-KI-Modelle hätten zwar überzeugende Ergebnisse erzielt, das Training sei jedoch oft sehr zeitaufwendig und vernachlässige verfügbare 3D-Daten.

Das Team schlägt daher ein kollaboratives Paradigma für generative Modelle vor: Modelle, die auf 3D-Daten trainiert wurden, liefern eine detaillierte und genaue Geometrie. Modelle, die auf 2D-Daten trainiert wurden, liefern verschiedene Erscheinungsbilder.

Anknüpfend an diesem Paradigma entwickelte das Team SDFusion, ein Diffusions-basiertes generatives Modell für 3D-Assets, das zudem multimodalen Input wie Text, Bild oder 3D-Formen verarbeiteten kann. Die 3D-Objekte können durch das Zusammenspiel von generativen 3D- und 2D-KI-Modellen zusätzlich texturiert werden.

Video: Bild: Cheng et al.

SDFusion ermögliche es Nutzenden so, 3D-Assets mit unvollständigen Formen, Bildern und Textbeschreibungen gleichzeitig zu erstellen. Das erlaubt eine präzisere Steuerung des generativen Prozesses. Beispielsweise kann das Foto eines Stuhls mit einem einzelnen Standbein mit vier 3D-Asset-Stuhlbeinen zu einem Stuhl mit drei Beinen vermischt werden. Die Sitzschale aus dem Foto wird dabei übernommen.

Empfehlung
SDFusion kann multimodale Eingaben verarbeiten. | Bild: Cheng et al.

SDFusion lernt multimodal

Während des Trainings lernt SDFusions Diffusionsmodell von 3D-Modellen und über Encoder, die Text und Bilder verarbeiten können. Nach dem Training kann das Team zudem die Relevanz einzelner Inputs wie Textbeschreibung, Bild oder 3D-Form regulieren und so unterschiedliche 3D-Assets generieren.

Ein Encoder kodiert die 3D-Formen und führt das Training eines Diffusionsmodells. Für die multimodale Konditionierung verarbeitet der Encoder Text und Bild. | Bild: Cheng et al.

In Tests kann SDFusion vom Team getestete Alternativen abhängen: "SDFusion erzeugt Formen von besserer Qualität und Vielfalt, die gleichzeitig mit den eingegebenen Teilformen konsistent sind." Das gilt für die Vervollständigung von vorgegebenen Formen, der Single-View 3D-Rekonstruktion, der Text-geleiteten Generation und der Multi-konditionalen Generierung.

Trotz der guten Ergebnisse gäbe es jedoch noch viel zu verbessern, schreibt das Team. So sei ein Modell wünschenswert, das mit zahlreichen verschiedenen 3D-Darstellungen arbeiten könne. SDFusion arbeitet ausschließlich mit hochwertigen SDFs, ähnlich wie Nvidias 3D MoMa. Ein weiteres Forschungsfeld wäre zudem der Einsatz von SDFusion abseits einzelner 3D-Assets in anspruchsvolleren Szenarien wie der Generierung ganzer 3D-Szenen.

Mehr Informationen und Beispiele gibt es auf der Projektseite von SDFusion.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Wer mehr über die Zukunft der KI-Grafik lernen möchte, kann sich unseren DEEP MINDS Podcast mit Thomas Müller, KI-Forscher bei Nvidia, anhören.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • SDFusion ist ein multimodales KI-Framework für 3D-Assets, das Text, Bilder und 3D-Formen als Input verarbeiten kann.
  • Das generative KI-Modell lässt sich so besser steuern. Solche Modelle seien eine Grundlage für eine weite Verbreitung von 3D-Inhalten, so die Forschenden.
  • Das Team zeigt zudem, wie sich von SDFusion generierte 3D-Modelle mit weiteren KI-Methoden texturieren lassen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!