LATTE3D erzeugt 3D-Modelle nahezu in Echtzeit

LATTE3D von Nvidia verwandelt Texteingaben in weniger als einer Sekunde in detaillierte 3D-Objekte und ist damit das derzeit schnellste generative KI-Modell für 3D-Inhalte.

LATTE3D ist in der Lage, in weniger als einer Sekunde aus Texteingaben dreidimensionale Darstellungen von Objekten und Tieren zu erzeugen. Entwickelt im KI-Labor von NVIDIA in Toronto unter der Leitung von Sanja Fidler, Vizepräsidentin für KI-Forschung, haben die Ideen hinter LATTE3D das Potenzial, den Design- und Entwicklungsprozess in der Videospielindustrie, der Werbung und anderen Bereichen erheblich zu beschleunigen.

Denn noch vor einem Jahr brauchten vergleichbare KI-Modelle eine Stunde, um 3D-Visualisierungen in dieser Qualität zu erzeugen. Heute haben die schnellsten Modelle diese Zeit auf wenige Minuten verkürzt, teilweise sogar auf unter eine Minute bei mittlerer Qualität. Mit LATTE3D erreicht die junge Technologie nun nahezu Echtzeit-3D-Generierung.

Umfassendes Pretraining ermöglicht die Schnelligkeit von LATTE3D

Wie bei anderen Modellen ist auch bei LATTE3D ein zweistufiger Generierungsprozess implementiert. Im ersten Schritt wird aus dem Text eine grobe 3D-Form erzeugt. Im zweiten Schritt wird diese Form verfeinert, um Details und Texturen hinzuzufügen. Diese Aufteilung ermöglicht eine effiziente und detaillierte Erzeugung von 3D-Modellen.

Die hohe Geschwindigkeit von LATTE3D wird durch den Trainingsprozess erreicht, bei dem das Modell mit einer großen Anzahl von Aufgaben gleichzeitig trainiert wird. Dabei lernt das Modell, allgemeine Muster und Strukturen zu erkennen, die es ihm ermöglichen, auf neue, ähnliche Aufgaben schneller zu reagieren. Dabei setzt das Team auf 3D-Datensätze und auch auf von ChatGPT generierte Prompts, mit denen das Modell zum Beispiel lernt, dass Prompts für verschiedene Hunderassen doch mit einer Grundform beginnen.

LATTE3D fängt also nicht bei jedem Prompt von vorne an, sondern kann auf sein im Training erworbenes Grundverständnis zurückgreifen. Im Prinzip verlagert das Team damit die sonst benötigte Rechenleistung: Statt mehrere Minuten während der Inferenz zu rechnen, wird mehr Zeit in das Training investiert.

Die sekundenschnellen Ergebnisse können durch weitere Inferenz innerhalb von Minuten verfeinert werden, um detailliertere Objekte zu erhalten. Fertige Modelle können dann mit weiteren Methoden wie Align Your Gaussians animiert werden.

Mehr Informationen und Beispiele gibt es auf der Projektseite von LATTE3D.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

LATTE3D erzeugt 3D-Modelle nahezu in Echtzeit

Umfassendes Pretraining ermöglicht die Schnelligkeit von LATTE3D

Bloomberg: Geplante Rechenzentren in China setzen auf verbotene Nvidia-Hardware

Nur 32 Länder mit spezialisierter KI-Infrastruktur – EU weit abgeschlagen hinter USA und China

Nvidia-Chef Jensen Huang kritisiert Anthropic-CEO Dario Amodei scharf

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

LATTE3D erzeugt 3D-Modelle nahezu in Echtzeit

Umfassendes Pretraining ermöglicht die Schnelligkeit von LATTE3D

Bloomberg: Geplante Rechenzentren in China setzen auf verbotene Nvidia-Hardware

Nur 32 Länder mit spezialisierter KI-Infrastruktur – EU weit abgeschlagen hinter USA und China

Nvidia-Chef Jensen Huang kritisiert Anthropic-CEO Dario Amodei scharf