Inhalt
summary Zusammenfassung

Das 3D-Rekonstruktionsmodell SPAR3D von Stability AI verspricht Echtzeit-Bearbeitung und Generierung kompletter 3D-Objektstrukturen aus einem einzigen Bild.

Anzeige

Auf der Consumer Electronics Show (CES) hat das Unternehmen Stability AI in Zusammenarbeit mit Nvidia das 3D-Rekonstruktionsmodell SPAR3D (Stable Point Aware 3D) vorgestellt. SPAR3D soll die Echtzeit-Bearbeitung und -Generierung der vollständigen Struktur von 3D-Objekten aus einem einzigen Eingabebild in weniger als einer Sekunde ermöglichen. Das Modell wurde für den Einsatz auf PCs mit Nvidias RTX-Grafikkarten entwickelt.

Video: Stability AI

SPAR3D bietet laut Stability AI eine hohe Kontrolle über die 3D-Objekterstellung. Die generierte Punktwolke kann direkt bearbeitet werden, indem Punkte gelöscht, dupliziert, gestreckt, eingefärbt oder neue Merkmale hinzugefügt werden. SPAR3D soll zudem eine genaue Geometrie und detaillierte 360-Grad-Ansichten liefern, einschließlich typischerweise verdeckter Bereiche.

Anzeige
Anzeige

Video: Stability AI

Bearbeitete Punktwolken wandelt SPAR3D den Angaben zufolge in nur 0,3 Sekunden in fertige Netze um und ermöglicht so eine Echtzeit-Bearbeitung. Aus einem einzigen Bild soll das Modell hochdetaillierte 3D-Netze in nur 0,7 Sekunden pro Objekt generieren.

Damit könnte SPAR3D potenziell das 3D-Prototyping für Spieleentwickler:innen, Produktdesigner:innen und Umgebungsgestalter:innen vereinfachen.

Zweistufige Architektur kombiniert Präzision und Flexibilität

Die Architektur von SPAR3D besteht aus zwei Stufen: In der ersten Stufe erzeugt ein spezialisiertes Punkt-Diffusionsmodell eine detaillierte Punktwolke, die die grundlegende Struktur des Objekts erfassen soll.

In der zweiten Stufe verarbeitet der sogenannte Triplane-Transformer diese Punktwolke zusammen mit den Merkmalen des Originalbilds. Dabei sollen hochauflösende Triplane-Daten entstehen, die die endgültige Rekonstruktion mit Geometrie, Textur und Beleuchtung aus dem Quellbild steuern.

Empfehlung
Flussdiagramm: SPAR3D-Pipeline zur 3D-Rekonstruktion mit DINOv2 Encoder, Punktwolken-Verarbeitung und Triplane-Transformation für Geometrie/Textur.
Die SPAR3D-Architektur transformiert 2D-Bilder in detaillierte 3D-Modelle durch einen mehrstufigen Prozess. | Bild: Stability AI

Kostenlose Nutzung unter Community-Lizenz

SPAR3D steht ab sofort unter der Stability AI Community Lizenz kostenlos sowohl für die kommerzielle als auch für die nicht-kommerzielle Nutzung zur Verfügung. Organisationen mit einem Jahresumsatz von mehr als einer Million Dollar können sich für eine Enterprise-Lizenz an Stability AI wenden.

Die Gewichte von SPAR3D können auf Hugging Face heruntergeladen werden. Der Quellcode ist auf GitHub verfügbar und das Modell kann über die Stability AI Developer Platform API integriert werden.

Stability AI forscht schon seit einiger Zeit an immer effizienteren 3D-Modellen. Auch die Zusammenarbeit mit Nvidia scheint logisch, das US-Unternehmen hat erst Ende 2024 mit Edify 3D ein weiteres Text-zu-3D-System vorgestellt. Weiterhin sind unter anderem Meta, Midjourney und Luma AI mit KI-Modellen in dieser Richtung beschäftigt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Stability AI und Nvidia haben auf der CES das 3D-Rekonstruktionsmodell SPAR3D vorgestellt, das die Echtzeit-Bearbeitung und -Generierung kompletter 3D-Objektstrukturen aus einem einzigen Bild ermöglicht.
  • SPAR3D bietet hohe Kontrolle über die 3D-Objekterstellung, indem Punktwolken direkt bearbeitet und in nur 0,3 Sekunden in fertige Netze umgewandelt werden können. Aus einem Bild generiert das Modell hochdetaillierte 3D-Netze in nur 0,7 Sekunden pro Objekt.
  • SPAR3D ist unter der Stability AI Community License für Unternehmen mit einem Jahresumsatz von weniger als einer Million Euro kostenlos verfügbar.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!