Inhalt
summary Zusammenfassung

Ein Forschungsteam aus China präsentierte InstantMesh, ein KI-Framework, das aus Einzelbildern in Sekundenschnelle hochwertige 3D-Netze erzeugen kann.

Forscherinnen und Forscher des Tencent PCG ARC Lab und der Shanghai Tech University haben InstantMesh entwickelt, ein Open-Source-Framework für die schnelle Erstellung hochwertiger 3D-Meshes aus einzelnen 2D-Bildern. Laut dem als Preprint veröffentlichten Artikel kann die Methode detaillierte 3D-Assets in nur zehn Sekunden erzeugen.

Die Entwicklung solcher Verfahren zur Generierung von 3D-Modellen aus Einzelbildern schreitet rasch voran, ständig erscheinen Arbeiten über ein etwas genaueres oder etwas schnelleres Modell.

Im Vergleich zu Bilddiffusionsmodellen wie Midjourney, Firefly 2 oder SDXL, die innerhalb von Sekunden fotorealistische Einzelbilder erzeugen, sind 3D-Modelle jedoch weniger detailliert und können Fehler aufweisen. Die Vorteile der Diffusionstechnik soll jetzt auch bei 3D-Generatoren ankommen.

Anzeige
Anzeige

Mesh statt NeRF

Die Architektur von InstantMesh besteht aus zwei Hauptkomponenten: einem Multi-View-Diffusionsmodell und einem Rekonstruktionsmodell für 3D-Netze aus wenigen Ansichten.

Das Multi-View-Diffusionsmodell ist darauf trainiert, aus einem Eingabebild 3D-konsistente Ansichten aus verschiedenen Blickwinkeln zu synthetisieren und könnte theoretisch beliebig im InstantMesh-Framework ausgetauscht werden.

Anstelle eines Einzelbildes als Eingabe könnte auch nur ein Textprompt verwendet werden. Diese Ansichten dienen dann als Input für das Rekonstruktionsmodell.

In einem ersten Schritt erzeugt InstantMesh eine Multi-View-Ansicht des 3D-Modells als Bilder aus verschiedenen Perspektiven. | Bild: Xu et al.

Als 3D-Darstellung setzt InstantMesh direkt auf Meshes anstelle der in bisherigen Verfahren verwendeten Triplane-NeRF-Darstellung. Durch die effiziente Mesh-Rasterung können hochaufgelöste RGB-Bilder sowie Tiefen- und Normalenkarten als zusätzliche geometrische Informationen für das Training verwendet werden.

Im Vergleich zu NeRF-basierten Ansätzen führt dies laut den Forschenden zu glatteren Meshes. Zudem könnten die erzeugten Meshes leichter nachbearbeitet werden, was jedoch in Zukunft noch weiter erforscht werden müsse.

Empfehlung

In Experimenten erzielt InstantMesh laut dem Paper sowohl bei der wahrgenommenen Qualität synthetisierter neuer Ansichten als auch bei der geometrischen Genauigkeit deutlich bessere Ergebnisse als aktuelle Vergleichsverfahren wie TripoSR, LGM und Stable Video 3D.

Bild: Xu et al.

Demo jetzt auf Hugging Face verfügbar

Ungewöhnlich für Forschungen in diesem Bereich: Parallel zu diesem Paper stellen die Forschenden auch den gesamten Code, die trainierten Modellvarianten und eine Demo auf Hugging Face von InstantMesh Open Source zur Verfügung.

Hier lässt sich aus vorgegebenen Beispielbildern wählen oder eigene hochladen, sowohl Fotografien als auch KI-Generationen. Sollte das Ergebnis nicht zufriedenstellend sein, empfehlen die Entwickler:innen, den Seed zu verändern, der die Multi-View-Ansicht bestimmt und dadurch die Qualität des 3D-Objekts maßgeblich beeinflusst.

Bild: Screenshot/THE DECODER

Für die Zukunft haben sich die Forschenden unter anderem vorgenommen, die Auflösung der generierten 3D-Meshes zu erhöhen und fortschrittlichere Multi-View-Diffusionsarchitekturen zu verwenden, um die Konsistenz zwischen den Ansichten weiter zu verbessern. Insbesondere für die Entwicklung von Videospielen könnten Technologien wie diese einen Produktivitätsschub bedeuten.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscherinnen und Forscher von Tencent und der Shanghai Tech University haben InstantMesh entwickelt, ein Open-Source-Framework, das aus Einzelbildern in Sekundenschnelle qualitativ hochwertige 3D-Netze erzeugen kann.
  • Die Architektur von InstantMesh besteht aus einem Multi-View-Diffusionsmodell, das aus einem Eingabebild kohärente 3D-Ansichten aus verschiedenen Blickwinkeln synthetisiert, und einem Rekonstruktionsmodell für 3D-Netze.
  • In Experimenten erzielt InstantMesh bessere Ergebnisse als aktuelle Vergleichsverfahren. Der gesamte Code, trainierte Modellvarianten und eine Demo sind auf Hugging Face verfügbar. Die Technologie könnte insbesondere für die Entwicklung von Videospielen einen Produktivitätsschub bedeuten.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!