Inhalt
summary Zusammenfassung

LATTE3D von Nvidia verwandelt Texteingaben in weniger als einer Sekunde in detaillierte 3D-Objekte und ist damit das derzeit schnellste generative KI-Modell für 3D-Inhalte.

LATTE3D ist in der Lage, in weniger als einer Sekunde aus Texteingaben dreidimensionale Darstellungen von Objekten und Tieren zu erzeugen. Entwickelt im KI-Labor von NVIDIA in Toronto unter der Leitung von Sanja Fidler, Vizepräsidentin für KI-Forschung, haben die Ideen hinter LATTE3D das Potenzial, den Design- und Entwicklungsprozess in der Videospielindustrie, der Werbung und anderen Bereichen erheblich zu beschleunigen.

Denn noch vor einem Jahr brauchten vergleichbare KI-Modelle eine Stunde, um 3D-Visualisierungen in dieser Qualität zu erzeugen. Heute haben die schnellsten Modelle diese Zeit auf wenige Minuten verkürzt, teilweise sogar auf unter eine Minute bei mittlerer Qualität. Mit LATTE3D erreicht die junge Technologie nun nahezu Echtzeit-3D-Generierung.

Umfassendes Pretraining ermöglicht die Schnelligkeit von LATTE3D

Wie bei anderen Modellen ist auch bei LATTE3D ein zweistufiger Generierungsprozess implementiert. Im ersten Schritt wird aus dem Text eine grobe 3D-Form erzeugt. Im zweiten Schritt wird diese Form verfeinert, um Details und Texturen hinzuzufügen. Diese Aufteilung ermöglicht eine effiziente und detaillierte Erzeugung von 3D-Modellen.

Anzeige
Anzeige

Die hohe Geschwindigkeit von LATTE3D wird durch den Trainingsprozess erreicht, bei dem das Modell mit einer großen Anzahl von Aufgaben gleichzeitig trainiert wird. Dabei lernt das Modell, allgemeine Muster und Strukturen zu erkennen, die es ihm ermöglichen, auf neue, ähnliche Aufgaben schneller zu reagieren. Dabei setzt das Team auf 3D-Datensätze und auch auf von ChatGPT generierte Prompts, mit denen das Modell zum Beispiel lernt, dass Prompts für verschiedene Hunderassen doch mit einer Grundform beginnen.

LATTE3D fängt also nicht bei jedem Prompt von vorne an, sondern kann auf sein im Training erworbenes Grundverständnis zurückgreifen. Im Prinzip verlagert das Team damit die sonst benötigte Rechenleistung: Statt mehrere Minuten während der Inferenz zu rechnen, wird mehr Zeit in das Training investiert.

Die sekundenschnellen Ergebnisse können durch weitere Inferenz innerhalb von Minuten verfeinert werden, um detailliertere Objekte zu erhalten. Fertige Modelle können dann mit weiteren Methoden wie Align Your Gaussians animiert werden.

Mehr Informationen und Beispiele gibt es auf der Projektseite von LATTE3D.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia's LATTE3D ist das schnellste generative KI-Modell für 3D-Inhalte und kann Texteingaben in weniger als einer Sekunde in detaillierte 3D-Objekte umwandeln.
  • Die hohe Geschwindigkeit von LATTE3D wird durch umfassendes Pretraining erreicht, bei dem das Modell mit vielen Aufgaben gleichzeitig trainiert wird und allgemeine Muster und Strukturen erkennt.
  • Die Technologie hat das Potenzial, den Design- und Entwicklungsprozess in der Videospielindustrie, der Werbung und anderen Bereichen erheblich zu beschleunigen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!