Inhalt
summary Zusammenfassung

Mit HunyuanWorld-Voyager will Tencent realistische 3D-Szenen aus Einzelbildern erzeugen – ohne komplexe 3D-Modelle. Das System kombiniert RGB- und Tiefeninformationen mit einem speicheroptimierten Weltgedächtnis.

Anzeige

Tencent hat mit HunyuanWorld-Voyager ein KI-System vorgestellt, das aus einem einzigen Bild eine räumlich konsistente 3D-Welt generieren kann. Nutzer geben vor, wie sich die Kamera durch die Szene bewegen soll – Voyager erzeugt daraus eine zusammenhängende Videosequenz. Ziel ist es, virtuelle 3D-Umgebungen ohne aufwendige Modelle oder Technik zu erzeugen.

Zentrale technische Grundlage ist die gleichzeitige Generierung von RGB- und Tiefenvideo (RGB-D). Die Tiefeninformation erlaubt dem System, Entfernungen innerhalb des Bildes einzuschätzen und typische Fehler zu vermeiden, die auftreten, wenn Objekte aus ungewöhnlichen Blickwinkeln sichtbar werden.

Video: Tencent

Anzeige
Anzeige

Gedächtnis für 3D-Welten

Ein Kernelement von Voyager ist der sogenannte „World Cache“. Er speichert bereits gesehene und erzeugte Bildbereiche und wird bei jeder neuen Kamerabewegung aktualisiert. Wenn verdeckte Bereiche wieder ins Bild kommen, greift das System auf den Cache zurück. Redundante Informationen werden entfernt, um Speicherplatz zu sparen. Dadurch bleiben auch längere Kamerafahrten stabil und geometrisch konsistent.

Für das Training nutzte Tencent eine große Sammlung realer Videos und Szenen aus der Unreal Engine, die mit automatisch geschätzten Kameraposen und metrischer Tiefe versehen wurden. Das System lernte so, wie sich Kameras realistisch durch Räume bewegen und wie Objekte aus verschiedenen Perspektiven erscheinen.

Benchmark-Bestwerte und 3D-Rekonstruktion

Im WorldScore-Benchmark erreichte Voyager laut Tencent Bestwerte in mehreren Kategorien, darunter Kamerakontrolle und räumliche Konsistenz. Ein praktischer Vorteil: Die gleichzeitige Ausgabe von RGB- und Tiefenvideo erlaubt laut dem Paper eine direkte 3D-Rekonstruktion – etwa als Punktwolken oder Gaussian-Proxys – ohne fehleranfällige Nachbearbeitung.

Neben der Videoerzeugung kann Voyager laut Tencent auch genutzt werden, um aus einem Bild ein 3D-Objekt abzuleiten, die Tiefenstruktur eines Videos zu analysieren oder Bildstile zu übertragen, ohne dabei die Geometrie zu verlieren. Der Code samt Inferenz-Gewichten ist öffentlich verfügbar. Für eine Ausgabe in 540p nennt Tencent rund 60 GB GPU-RAM als Untergrenze.

Ergänzung zu HunyuanWorld 1.0

Voyager ist eine direkte Ergänzung für HunyuanWorld 1.0. Während HunyuanWorld 1.0 auf eine semantisch geschichtete 3D-Mesh-Repräsentation mit Mesh-Export und Interaktivität setzte, adressiert Voyager gezielt Schwächen wie begrenzte Erkundungsreichweite und Probleme mit verdeckten Bereichen. Die neue RGB-Tiefen-Kopplung und der World Cache ermöglichen laut Tencent längere, konsistente Kamerafahrten. Beide Systeme ergänzen sich: HunyuanWorld 1.0 für exportierbare Meshes, Voyager für stabile Video- und 3D-Erzeugung. HunyuanWorld 1.0 ist seit August auch in einer "Light"-Variante verfügbar, Voyager erst jetzt.

Empfehlung

Unterschiedliche Ziele bei Konkurrenzsystemen

Andere Systeme verfolgen teils andere Ansätze. Googles Genie 3 zielt auf interaktive Welten, in denen Nutzer per Text sogenannte „World Events“ auslösen können. Die Konsistenz der Szenen hält laut Anbieter für einige Minuten. Der Zugriff ist derzeit auf eine limitierte Research-Vorschau beschränkt.

Auch Mirage 2 vom Dynamics Lab bietet interaktive Demos im Browser mit Tastatur- und Texteingabe. Diese Systeme zielen auf Live-Gameplay, Interaktivität und Robotertraining, während Voyager auf Produktion und 3D-Pipeline fokussiert bleibt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Tencent hat mit HunyuanWorld-Voyager ein KI-System vorgestellt, das aus einem einzelnen Bild eine räumlich konsistente 3D-Welt generieren kann, indem es RGB- und Tiefeninformationen mit einem speicheroptimierten Weltgedächtnis kombiniert.
  • Das System erreicht laut Tencent im WorldScore-Benchmark Bestwerte und erlaubt durch gleichzeitige RGB- und Tiefenausgabe eine direkte 3D-Rekonstruktion, etwa als Punktwolke oder Gaussian-Proxy, ohne aufwendige Nachbearbeitung.
  • Voyager ergänzt HunyuanWorld 1.0 gezielt um längere, stabile Kamerafahrten und löst Probleme mit verdeckten Bereichen, während Konkurrenzsysteme wie Google Genie 3 oder Mirage 2 auf Interaktivität und Live-Gameplay setzen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!