Inhalt
summary Zusammenfassung

Der Einsatz von generativer KI für 3D-Objekte birgt noch viel Potenzial, insbesondere für die Entwicklung von Videospielen. Stability AI scheint mit einem verfeinerten Ansatz einige Hürden überwunden zu haben.

Anzeige

Stability AI hat kürzlich SF3D vorgestellt, eine Technik zur Generierung hochwertiger 3D-Objektmodelle aus einzelnen Bildern. Dabei baut es auf den im Frühjahr mit TripoSR gewonnen Erkenntnissen auf, das bereits 3D-Modelle in einer halben Sekunde erstellen konnte. Diese hohe Geschwindigkeit hält Stable Fast 3D, löst gleichzeitig aber auch einige Herausforderungen, mit denen alternative Methoden bislang zu kämpfen hatten.

Flexible Beleuchtung möglich

Ein Problem, das SF3D angeht, sind eingebrannte Beleuchtungseffekte in den generierten 3D-Modellen. Diese Effekte entstehen, wenn die Beleuchtung des Originalbildes direkt in die Textur des 3D-Modells übernommen wird, was die Verwendbarkeit des Modells in verschiedenen Anwendungen beeinträchtigen kann.

SF3D löst dieses Problem, indem es die Beleuchtungs- und Reflexionseigenschaften des Objekts separat modelliert. Dazu verwendet es eine spezielle mathematische Funktion, die sphärische Gaußsche Funktion. Dieser Ansatz führt zu einer konsistenteren Beleuchtung der generierten Objekte, unabhängig von der ursprünglichen Beleuchtungssituation im Eingabebild.

Anzeige
Anzeige

Video: Stability AI

Weniger Polygone, aber mehr Details

Ein weiteres Problem anderer Methoden ist die Verwendung von Vertex-Farben zur Darstellung von Objekttexturen. Vertex-Farben sind Farbinformationen, die direkt an den Eckpunkten (Vertices) des 3D-Modells gespeichert werden. Diese Methode kann bei Modellen mit einer hohen Anzahl von Polygonen ineffizient sein, insbesondere für Anwendungen wie Computerspiele.

SF3D überwindet dieses Problem durch den Einsatz einer speziellen Texturentfaltungstechnik, der sogenannten UV-Entfaltung. Dabei wird die Textur des Objekts auf eine flache 2D-Oberfläche projiziert, ähnlich wie bei einer Landkarte. Diese Technik ermöglicht es, feinere Details mit einer geringeren Anzahl von Polygonen als bei den bisherigen Methoden darzustellen.

Bild: Stability AI

"Treppenartefakte" entstehen durch den Marching-Cubes-Algorithmus, der häufig in Feed-Forward-Netzen verwendet wird, um aus den erzeugten 3D-Daten ein Polygonnetz zu erstellen. SF3D verwendet eine effizientere Architektur für höher aufgelöste 3D-Daten und erzeugt Netze mit einem verbesserten Algorithmus namens DMTet.

Zusätzlich werden die Positionen der Eckpunkte des Gitters leicht verschoben und Normal-Maps verwendet, um glattere Oberflächen zu erhalten. Normalen-Maps sind Texturen, die die Orientierung der Oberfläche an jedem Punkt des 3D-Modells speichern und so detailliertere Beleuchtungseffekte ermöglichen.

Empfehlung
TripoSR | Bild: Stability AI
Stable Fast 3D | Bild: Stability AI

Um das Erscheinungsbild der generierten Objekte weiter zu verbessern, sagt SF3D Materialeigenschaften wie Rauheit und metallische Eigenschaften voraus. Diese Eigenschaften werden für das gesamte Objekt bestimmt und nicht für jeden Punkt einzeln. Diese Ergänzung macht sich besonders bemerkbar, wenn die Objekte unter verschiedenen Beleuchtungssituationen dargestellt werden, da sie eine realistischere Lichtreflexion ermöglicht.

Bild: Stability AI

Die SF3D-Pipeline besteht aus fünf Hauptkomponenten: einem fortschrittlichen neuronalen Netzwerk zur Vorhersage von 3D-Daten mit höherer Auflösung, einem Netzwerk zur Schätzung von Materialeigenschaften, einem Modul zur Vorhersage der Beleuchtung, einem Schritt zur Extraktion und Verfeinerung des Polygonnetzes und einem schnellen Modul zur UV-Entwicklung und zum Export des fertigen 3D-Modells.

3D-Modelle unter 1 MB

Experimentelle Ergebnisse zeigen die hohe Qualität von SF3D im Vergleich zu bestehenden Verfahren. Die erzeugten 3D-Modelle sind klein (unter 1 MB) und werden in nur 0,5 Sekunden erstellt. Die Autor:innen zeigen auch, dass SF3D mit einem schnellen Text-zu-Bild-Modell kombiniert werden kann, um 3D-Modelle aus Textbeschreibungen in etwa einer Sekunde zu erstellen.

Einige interaktive Beispiele der mit Stable Fast 3D generierten Modelle finden sich auf dieser GitHub-Seite, selbst ausprobieren lässt sich die Technik auf Hugging Face. Der Code steht in diesem Repository zur Verfügung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das Londoner KI-Start-up Stability AI, das auch die Bildmodellreihe Stable Diffusion weiterentwickelt, hat in jüngerer Vergangenheit immer wieder Meilensteine in der 3D-Objektmodellierung erreicht, darunter Stable 3D und Zero123, um Objekte aus einem Prompt zu generieren; Stable Video 3D für neue Perspektiven von Objekten aus Bildern; und Stable Video 4D für Objekte, die sich dabei auch noch bewegen können.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Stability AI hat mit SF3D eine neue Technik zur Generierung hochwertiger 3D-Objektmodelle aus Einzelbildern vorgestellt, die auf den Erkenntnissen des im Frühjahr präsentierten TripoSR aufbaut.
  • SF3D löst Probleme bisheriger Methoden, wie eingebrannte Beleuchtungseffekte und ineffiziente Polygondarstellung, durch separate Modellierung von Beleuchtungs- und Reflexionseigenschaften, UV-Entfaltung der Textur und Vorhersage von Materialeigenschaften für realistischere Ergebnisse.
  • Die Pipeline besteht aus fünf Hauptkomponenten und erzeugt 3D-Modelle unter 1 MB Größe in nur 0,5 Sekunden. In Kombination mit einem Text-zu-Bild-Modell lassen sich 3D-Modelle auch aus Textbeschreibungen in etwa einer Sekunde generieren.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!