InstantMesh verwandelt ein 2D-Bild in Sekundenschnelle in ein 3D-Objekt

Ein Forschungsteam aus China präsentierte InstantMesh, ein KI-Framework, das aus Einzelbildern in Sekundenschnelle hochwertige 3D-Netze erzeugen kann.

Forscherinnen und Forscher des Tencent PCG ARC Lab und der Shanghai Tech University haben InstantMesh entwickelt, ein Open-Source-Framework für die schnelle Erstellung hochwertiger 3D-Meshes aus einzelnen 2D-Bildern. Laut dem als Preprint veröffentlichten Artikel kann die Methode detaillierte 3D-Assets in nur zehn Sekunden erzeugen.

Die Entwicklung solcher Verfahren zur Generierung von 3D-Modellen aus Einzelbildern schreitet rasch voran, ständig erscheinen Arbeiten über ein etwas genaueres oder etwas schnelleres Modell.

Im Vergleich zu Bilddiffusionsmodellen wie Midjourney, Firefly 2 oder SDXL, die innerhalb von Sekunden fotorealistische Einzelbilder erzeugen, sind 3D-Modelle jedoch weniger detailliert und können Fehler aufweisen. Die Vorteile der Diffusionstechnik soll jetzt auch bei 3D-Generatoren ankommen.

Mesh statt NeRF

Die Architektur von InstantMesh besteht aus zwei Hauptkomponenten: einem Multi-View-Diffusionsmodell und einem Rekonstruktionsmodell für 3D-Netze aus wenigen Ansichten.

Das Multi-View-Diffusionsmodell ist darauf trainiert, aus einem Eingabebild 3D-konsistente Ansichten aus verschiedenen Blickwinkeln zu synthetisieren und könnte theoretisch beliebig im InstantMesh-Framework ausgetauscht werden.

Anstelle eines Einzelbildes als Eingabe könnte auch nur ein Textprompt verwendet werden. Diese Ansichten dienen dann als Input für das Rekonstruktionsmodell.

In einem ersten Schritt erzeugt InstantMesh eine Multi-View-Ansicht des 3D-Modells als Bilder aus verschiedenen Perspektiven. | Bild: Xu et al.

Als 3D-Darstellung setzt InstantMesh direkt auf Meshes anstelle der in bisherigen Verfahren verwendeten Triplane-NeRF-Darstellung. Durch die effiziente Mesh-Rasterung können hochaufgelöste RGB-Bilder sowie Tiefen- und Normalenkarten als zusätzliche geometrische Informationen für das Training verwendet werden.

Im Vergleich zu NeRF-basierten Ansätzen führt dies laut den Forschenden zu glatteren Meshes. Zudem könnten die erzeugten Meshes leichter nachbearbeitet werden, was jedoch in Zukunft noch weiter erforscht werden müsse.

Empfehlung

KI-Forschung

Neue Studie relativiert Apples Kritik an KI-Reasoning

In Experimenten erzielt InstantMesh laut dem Paper sowohl bei der wahrgenommenen Qualität synthetisierter neuer Ansichten als auch bei der geometrischen Genauigkeit deutlich bessere Ergebnisse als aktuelle Vergleichsverfahren wie TripoSR, LGM und Stable Video 3D.

Demo jetzt auf Hugging Face verfügbar

Ungewöhnlich für Forschungen in diesem Bereich: Parallel zu diesem Paper stellen die Forschenden auch den gesamten Code, die trainierten Modellvarianten und eine Demo auf Hugging Face von InstantMesh Open Source zur Verfügung.

Hier lässt sich aus vorgegebenen Beispielbildern wählen oder eigene hochladen, sowohl Fotografien als auch KI-Generationen. Sollte das Ergebnis nicht zufriedenstellend sein, empfehlen die Entwickler:innen, den Seed zu verändern, der die Multi-View-Ansicht bestimmt und dadurch die Qualität des 3D-Objekts maßgeblich beeinflusst.

Für die Zukunft haben sich die Forschenden unter anderem vorgenommen, die Auflösung der generierten 3D-Meshes zu erhöhen und fortschrittlichere Multi-View-Diffusionsarchitekturen zu verwenden, um die Konsistenz zwischen den Ansichten weiter zu verbessern. Insbesondere für die Entwicklung von Videospielen könnten Technologien wie diese einen Produktivitätsschub bedeuten.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

InstantMesh verwandelt ein 2D-Bild in Sekundenschnelle in ein 3D-Objekt

Mesh statt NeRF

Neue Studie relativiert Apples Kritik an KI-Reasoning

Demo jetzt auf Hugging Face verfügbar

Start-up Odyssey veröffentlicht Demo für begehbare KI-Videos

Neues 3D-Modell von Stability AI soll schnell genug für Echtzeit-Generierung sein

Nvidia stellt Text/Bild-zu-3D-Modell "Edify 3D" vor

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

InstantMesh verwandelt ein 2D-Bild in Sekundenschnelle in ein 3D-Objekt

Mesh statt NeRF

Demo jetzt auf Hugging Face verfügbar

Artikel teilen

Bankverbindung