Inhalt
summary Zusammenfassung

Ein neues generatives KI-System erzeugt 3D-Modelle aus einer Textbeschreibung. Die Modelle können direkt in üblichen Grafikengines verwendet werden.

Generative KI-Modelle wie OpenAIs DALL-E 2, Midjourney oder Stable Diffusion erzeugen beeindruckende Bilder nahezu jeden Stils. Der einzig nötige Input ist eine Textbeschreibung, die das gewünschte Ergebnis möglichst bildhaft beschreibt. Die KI-Grafik-Tools beschleunigen bestehende Arbeitsprozesse oder erstellen nahezu komplette Werke.

Die Technologie könne daher ein frühes Beispiel für die Auswirkungen von KI auf den Arbeitsmarkt zeigen, meint etwa OpenAI-Gründer Sam Altman. Wie der Fall eines Jason Allen zeigt, dessen KI-Kunstwerk einen Kunstwettbewerb gewann, sorgt bereits für Ärger unter Künstlerinnen und Designern.

Abseits der Modelle für Bilder arbeitet eine kleine Gruppe von Forschenden an einer neuen Klasse generativer KI-Systeme, die großes Potenzial haben, eine ganze Industrie zu revolutionieren: generative KI-Systeme für 3D-Modelle.

Anzeige
Anzeige

So zeigte etwa Ende 2021 Google Dream Fields, ein KI-Modell für die Generierung von 3D-Darstellung. Dream Fields verbindet OpenAIs CLIP mit einem NeRF-Generator. So ausgestattet, kann Dream Fields einfache NeRFs anhand von Textbeschreibungen erstellen.

Googles Dream Fields generiert bereits Ende 2021 3D-Modelle (NeRFs) nach Textbeschreibung, der Prozess ist jedoch zeit- und rechenintensiv. | Bild: Google

Googles Methode ist jedoch zeit- und rechenintensiv. Ferner lassen sich NeRFs nicht direkt in 3D-Mesh-Modelle verwandeln. Solche Mesh-Modelle bilden aber die Grundlage der Darstellung nahezu aller aktuellen 3D-Objekte, etwa in Videospielen oder Simulationen.

CLIP-Mesh generiert direkt 3D-Mesh-Modelle

In einer neuen Forschungsarbeit der Concordia University, Kanada, zeigen Forschende nun CLIP-Mesh, ein generatives KI-Modell, das aus Textbeschreibungen direkt 3D-Mesh-Modelle mit Texturen und Normal Maps generiert.

Das Team rendert dafür verschiedene Ansichten eines simplen Modells, etwa einer Kugel. Diese Kugel wird von einem Renderer aus Textur, Normal-Map und Eckpunkten des Meshs erstellt.

CLIP-Mesh setzt auf CLIP-Bild und CLIP-Text-Encoder sowie ein Diffusion-Modell. | Bild: Khalid et al.

Die Ansichten werden von einem CLIP-Modul kodiert und mit der von einem weiteren CLIP-Modul kodierten Texteingabe verglichen. Zusätzlich wird diese kodierte Texteingabe von einem Diffusion-Modell in eine Bildeinbettung verwandelt, die ebenfalls zum Abgleich mit der ursprünglichen Kodierung der Ansichten verwendet wird.

Empfehlung

CLIP-Mesh passt dann die dem Renderer zugeführten Texturen, Normal-Maps und Eckpunkte des Mesh-Modells nach dem Feedback des Text-Encoders und des Diffusion-Modells an.

CLIP-Mesh generiert Stühle oder Lampen, die direkt in eine 3D-Umgebung integriert werden können. | Bild: Khalid et al.

In ersten Experimenten verwendet das Team eine Kugel mit 600 Eckpunkten sowie eine Textur- und Normal-Map-Auflösung von 512 mal 512 Bildpunkten. Mit diesen Daten generiert CLIP-Mesh ein 3D-Modell in 50 Minuten auf einer Nvidia P100 mit 16 Gigabyte Grafikspeicher. Die Form möglicher Modelle wird dabei durch die ursprünglichen Eckpunkte eingeschränkt - allzu variable Formen können aus einer Kugel nicht entstehen, so die Forschenden.

Generative KIs für 3D-Modelle sind nur eine Frage der Zeit

In einem kurzen Video zeigt das Team einen kleinen Raum, der komplett mit generierten 3D-Modellen ausgestattet ist. Die Ergebnisse sind klar als Objekte erkennbar und lassen sich problemlos in einer Engine, die 3D-Meshes verarbeitet, nutzen. CLIP-Mesh texturiert die Modelle dazu passend.

Video: Khalid et al.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

CLIP-Mesh kann zudem auch eingesetzt werden, um mehrere Objekte zu bearbeiten. Dabei kann etwa eine Fläche lediglich texturiert und gleichzeitig ein darauf stehendes Modell komplett verändert werden.

Mit CLIP-Mesh lassen sich auch mehrere Objekte bearbeiten. | Bild: Khalid et al.

CLIP-Mesh ist also theoretisch bereits vielfältig einsetzbar - auch wenn die produzierten 3D-Mesh-Modelle weit entfernt von der Qualität händischer 3D-Modellierung sind.

Ein potenziell großer Vorteil: Das Forschungsteam benötigte für das Modell dank des Einsatzes von CLIP keine eigene 3D-Datenbank. Potenziell könnten somit neue generative KI-Systeme für 3D-Modelle entstehen, die die umfassenden Datensätze für Bild-Systeme nutzen und keine zusätzlichen Daten benötigen. Wie weit dieser Ansatz trägt, wollen die Forschenden nun in Zukunft untersuchen.

Sollten generative KI-Modelle für 3D-Objekte eine ähnliche Entwicklungsgeschwindigkeit aufweisen wie 2D-Systeme, könnten in diesem Bereich spezialisierte Unternehmen wie OpenAI schon im nächsten Jahr Modelle vorstellen, die in einem weiteren Arbeitsmarkt gehörig Staub aufwirbeln werden: der 3D-Programmierung und -Gestaltung.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • CLIP-Mesh ist ein generatives KI-Modell, das aus Textbeschreibungen texturierte 3D-Mesh-Modelle mit Normal Maps generiert.
  • Es kann bereits digitale Räume mit 3D-Modellen füllen oder Varianten von 3D-Modellen erzeugen. Allerdings ist die Qualität der Modelle noch nicht hoch.
  • Sollte die Entwicklungsgeschwindigkeit bei generativer 3D-KI so hoch sein wie bei Bild-KIs, dürften deutlich hochwertigere Systeme nur eine Frage der Zeit sein.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!