Inhalt
summary Zusammenfassung

Ein Team von Forschenden bei Google Research und Google DeepMind hat eine neue KI-Methode entwickelt, die in Sekundenschnelle realistische 3D-Szenen aus einzelnen oder mehreren Fotos erzeugen kann - vorausgesetzt, die Aufnahmeposition der Kamera ist bekannt.

Anzeige

Das "Bolt3D" getaufte System verwandelt innerhalb von nur 6,25 Sekunden auf einer Nvidia-H100-Grafikeinheit ein oder mehrere Fotos in eine vollständige, dreidimensionale Szene. Dafür muss das System wissen, von wo aus die Fotos aufgenommen wurden. Bisherige Verfahren benötigen für eine vergleichbare Aufgabe oft mehrere Minuten oder sogar Stunden.

Das System geht in zwei Schritten vor: Zunächst analysiert ein KI-Modell die Fotos und bestimmt für jeden Bildpunkt die passende Position und Farbe im dreidimensionalen Raum. Anschließend berechnet ein zweites KI-Modell, wie durchsichtig oder undurchsichtig jeder dieser Punkte sein soll und wie sie sich im Raum ausdehnen.

Übersichtsdiagramm zur Bolt3D-Methodik: Eingabe aus mehreren Bildern und Zielposen, latente Diffusionsmodelle für Erscheinungsbild und Geometrie, VAE-Decoder, Geometriedekodierung, Gaussians zu Splatter Images, Ergebnis als 3D-Gaussianszene.
Bolt3D kombiniert Diffusionsmodelle, VAE-Decoder und eine trainierte Geometriedekodierung, um eine renderfähige 3D-Szene aus Bildern zu erstellen. | Bild: Szymanowicz et al.

Diese Informationen werden in einem speziellen Format namens "Gaussian Splatting" gespeichert. Dabei wird die 3D-Szene durch eine Sammlung von dreidimensionalen Gauß-Funktionen dargestellt, die in mehreren 2D-Gittern organisiert sind.

Anzeige
Anzeige

Bolt3D bringt 3D-Daten in 2D-Gitter. | Video: Szymanowicz et al.

Jede dieser Funktionen speichert neben Position, Farbe und Transparenz auch Informationen darüber, wie sie sich im Raum ausdehnt. Damit ermöglicht das Format die Darstellung der 3D-Szene aus verschiedenen Blickwinkeln in Echtzeit. Um die Dateigröße zu optimieren, werden vollständig transparente Bereiche entfernt und die Daten effizient komprimiert.

Bessere Ergebnisse als bisherige KI-Methoden

In Tests hat Bolt3D bestehende schnelle Verfahren wie Flash3D und DepthSplat deutlich übertroffen. Ein wichtiger Vorteil: Während diese Verfahren Bereiche, die auf den Originalfotos nicht zu sehen sind, nur unscharf darstellen können, ergänzt Bolt3D auch verborgene Teile einer Szene realistisch.

Besonders glänzt Bolt3D in Bereichen der Szene, die im Eingangsbild nicht gut zu erkennen sind. | Video: Szymanowicz et al.

Entscheidend für die hohe Qualität ist ein speziell entwickeltes KI-Modell zur Verarbeitung der räumlichen Informationen. Die Forschenden zeigen, dass herkömmliche, nur auf Fotos trainierte Modelle für diese Aufgabe ungeeignet sind, da sie die besonderen Eigenschaften dreidimensionaler Daten nicht berücksichtigen können.

Empfehlung

Umfangreiches Training mit 3D-Daten

Um das System zu trainieren, nutzten die Forscher:innen etwa 300.000 dreidimensionale Szenen aus verschiedenen Datensätzen. Diese Szenen wurden aus vielen Einzelfotos mit speziellen 3D-Rekonstruktionsverfahren erstellt. Zusätzlich wurden computergenerierte 3D-Modelle verwendet. Diese große Datenmenge ermöglicht es dem System, auch unvollständig fotografierte Szenen plausibel zu ergänzen.

Die Forschenden räumen ein, dass das System noch Schwächen hat: Sehr feine Strukturen, die auf den Fotos weniger als acht Pixel breit sind, kann es nicht zuverlässig erkennen. Auch transparente Oberflächen wie Glas und stark reflektierende Materialien bereiteten noch Probleme. Außerdem reagiere das Modell empfindlich darauf, wie die Szene fotografiert wurde und wie groß sie dargestellt werden soll.

Trotz dieser Einschränkungen könnte die neue Technologie einen wichtigen Schritt zur effizienten Erstellung von 3D-Inhalten darstellen. Da sie um ein Vielfaches schneller ist als bisherige Verfahren, ermöglicht sie laut Paper die Generierung von 3D-Szenen in großem Maßstab.

In eine ähnliche Richtung gehen die kürzlich vorgestellten Entwicklungen von Stability AI.SPAR3D erzeugt ebenfalls in Sekundenbruchteilen 3D-Objekte aus einzelnen Eingabebildern. Im Gegensatz zu einzelnen Objekten beherrscht Bolt3D jedoch die Generierung ganzer Szenen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Ob und wie das vorgestellte Modell Bolt3D der Öffentlichkeit zugänglich gemacht werden soll, geht aus dem Paper nicht hervor. Es existiert jedoch eine Projektwebsite, auf der weitere Visualisierungen und interaktive Demos zu finden sind.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Research und Google DeepMind haben ein KI-System namens Bolt3D entwickelt, das aus Fotos in 6,25 Sekunden realistische 3D-Szenen erstellt. Bisherige Methoden auf diesem Niveau benötigten Minuten oder Stunden.
  • Das System arbeitet mit einem zweistufigen Verfahren: Ein KI-Modell analysiert zunächst die Bildpunkte, ein zweites Modell berechnet deren Transparenz und räumliche Ausdehnung. Die Daten werden im "Gaussian Splatting"-Format gespeichert, das Darstellungen in Echtzeit ermöglicht.
  • Die KI wurde mit 300.000 3D-Szenen trainiert und kann auch nicht sichtbare Bereiche realistisch ergänzen. Einschränkungen bestehen bei feinen Strukturen unter acht Pixeln sowie bei Glas und spiegelnden Oberflächen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!