Inhalt
summary Zusammenfassung

Mit Hunyuan World Model 1.0 stellt Tencent ein Open-Source-Modell zur text- und bildbasierten Generierung immersiver 3D-Welten vor. Die Umsetzung hat jedoch noch Grenzen.

Anzeige

Tencent hat mit Hunyuan World Model 1.0 ein generatives KI-Modell veröffentlicht, das aus Text- oder Bildeingaben virtuelle 3D-Szenen erzeugt. Laut Tencent ist es das erste Open-Source-Modell dieser Art, das mit gängigen Grafikpipelines kompatibel ist und sich für Anwendungen in Game Engines, VR-Umgebungen und Simulationen eignet.

Ein zentrales Ziel sei es, den kreativen Übergang von Konzepten zu 3D-Inhalten zu beschleunigen – ohne proprietäre Hürden und mit maximaler Anschlussfähigkeit an bestehende Tools.

Dreiteiliges Panorama: lockere Pinselstrich-Berge im Mondlicht, eine korallenumwachsene Unterwasserstadt und ein schwebendes Schloss im bunten Wolkenmeer.
Drei mit Hunyuan World Model 1.0 generierte Panoramen demonstrieren, wie aus Texteingaben automatisch immersive 3D-Szenen entstehen, die direkt in gängige Grafikpipelines und Game Engines übernommen werden können. | Bild: Tencent (Screenshot)

Eine Besonderheit des Modells ist, dass es erkennbare Objekte in einer Szene voneinander trennt. Diese lassen sich dann einzeln bewegen oder bearbeiten – etwa um sie in Simulationen zu verwenden oder für Interaktionen in Spielen. Dazu gehören etwa Autos, Bäume oder Möbelstücke. Auch der Himmel wird separat behandelt und kann realistisch als Umgebungslichtquelle genutzt werden.

Anzeige
Anzeige

Interaktive Panoramabilder mit Erweiterungspotenzial

Das Modell kombiniert Panoramabild-Synthese mit hierarchischer 3D-Rekonstruktion. Es unterstützt zwei Eingabearten für die Szenengenerierung: textbasiert ("Text-to-World") und bildbasiert ("Image-to-World"). Die resultierenden Szenen können als Mesh-Dateien exportiert werden und sollen sich laut Tencent nahtlos in gängige 3D-Workflows integrieren lassen.

In den verfügbaren Demos erzeugt das Modell jedoch keine vollständig frei begehbaren 3D-Welten im Stil aktueller Videospiele. Die generierten Umgebungen ähneln eher interaktiven 360-Grad-Panoramen: Nutzer können sich im Bild umsehen und begrenzt navigieren, jedoch nicht uneingeschränkt durch eine 3D-Szene laufen. Für erweiterte Kamerafahrten und die Generierung von längeren, konsistenten 3D-Videosequenzen ist das Zusatzmodul Voyager erforderlich.

Video: Tencent

Dennoch sieht Tencent die erzeugten Visualisierungen als Ausgangspunkt für etwa VR-Anwendungen. Die semantische Interpretation von Texteingaben soll laut Unternehmen eine präzise Übertragung komplexer Szenenbeschreibungen in virtuelle Umgebungen ermöglichen. Für den Einsatz im Web oder in VR-Umgebungen unterstützt das Modell verschiedene Kompressions- und Beschleunigungstechniken.

Die Modellarchitektur basiert auf einem generativen Ansatz mit semantisch geschichteter Repräsentation. Die Ausgaben können in verschiedenen stilistischen Varianten erfolgen, was das Modell auch für kreative und gestalterische Anwendungsbereiche interessant machen soll.

Empfehlung

Hunyuan World Model 1.0 ist auf GitHub unter einer Open-Source-Lizenz verfügbar und über Hugging Face abrufbar. Eine interaktive Demo steht unter sceneTo3D bereit, setzt aber einen China-kompatiblen Login voraus.

Die Veröffentlichung von Hunyuan World Model 1.0 reiht sich in Tencents breite Open-Source-Strategie im KI-Bereich ein. Neben dem 3D-Weltengenerator hat der chinesische Technologiekonzern bereits Hunyuan3D 2.0 für die Generierung texturierter 3D-Modelle aus Bildern, HunyuanVideo für KI-gestützte Videogenerierung und das Sprachmodell Hunyuan-A13B mit dynamischem Reasoning als offene Modelle veröffentlicht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Tencent hat mit Hunyuan World Model 1.0 ein Open-Source-KI-Modell veröffentlicht, das auf Basis von Text- oder Bildvorgaben 3D-Szenen generiert.
  • Das Modell kombiniert Panoramabild-Synthese mit hierarchischer 3D-Rekonstruktion und exportiert die Ergebnisse als Mesh-Dateien für verschiedene Workflows in gängige Grafikpipelines und Game Engines.
  • Die generierten Umgebungen sind aktuell auf interaktive 360-Grad-Panoramen beschränkt und erlauben keine vollumfängliche freie Bewegung.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!