Seoul World Model: Navers neue Video-KI basiert auf echten Street-View-Aufnahmen

29. März 2026

Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

Der südkoreanische Internetkonzern Naver hat mit dem Seoul World Model ein Video-Weltmodell vorgestellt, das reale Stadtgeometrie aus 1,2 Millionen eigener Street-View-Aufnahmen nutzt, um ortsgebundene Videos zu generieren.
Das Modell lernt anhand von Aufnahmen aus unterschiedlichen Zeitpunkten, feste Strukturen wie Gebäude von zufälligen Objekten zu unterscheiden. Simulierte Videos ergänzen fehlende Blickwinkel, und bei langen Strecken dient ein Street-View-Bild etwas weiter voraus auf der Route als visueller Anker für mehr Konsistenz.
In Tests übertraf SWM sechs aktuelle Video-Weltmodelle in visueller Qualität und zeitlicher Konsistenz und generalisierte ohne zusätzliches Training auf fremde Städte wie Busan und Ann Arbor.

Der südkoreanische Internetkonzern Naver hat ein Video-Weltmodell entwickelt, das reale Stadtgeometrie aus über einer Million eigener Street-View-Aufnahmen als Grundlage nutzt. Das Modell generalisiert ohne Finetuning auf fremde Städte.

Bisherige Video-Weltmodelle erzeugen zwar visuell überzeugende, aber vollständig erfundene Umgebungen. Alles jenseits des Startbildes, die Geometrie unsichtbarer Straßen, entfernte Gebäude, halluziniert das Modell frei. Forschende von Naver und Naver Cloud gehen nun einen grundlegend anderen Weg: Ihr Seoul World Model (SWM) verankert die Videogenerierung in der tatsächlichen Geometrie und Erscheinung einer konkreten Großstadt.

Zwei Beispiele aus dem Seoul World Model: Links jeweils eine Karte von Seoul mit eingezeichneter Route, rechts die generierten Videoframes entlang dieser Route. Textprompts fügen brennende Autos und Godzilla zwischen Hochhäusern in die reale Straßenszene ein. Die Routen erstrecken sich über 1,8 und 1,2 Kilometer. — SWM fährt reale Routen in Seoul ab und generiert dabei Videos, die sich per Textprompt verändern lassen, etwa durch brennende Autos oder ein Godzilla-Szenario zwischen Hochhäusern. | Bild: Naver

Laut dem Forschungspapier handelt es sich um das erste Weltmodell, das an einen realen physischen Ort gebunden ist. Naver gilt als das "Google Südkoreas" und betreibt unter anderem die dort dominierende Suchmaschine sowie den Kartendienst Naver Map, der ähnlich wie Google Maps über eigene Straßenpanoramen verfügt. Aus diesem Fundus speist sich das Modell.

Nutzer geben geografische Koordinaten, eine gewünschte Kamerabewegung und einen Textprompt ein. Das Modell durchsucht dann eine Datenbank mit 1,2 Millionen Panoramabildern von Naver Map, ruft die räumlich nächstgelegenen Street-View-Aufnahmen ab und nutzt sie als Orientierung für die schrittweise Videogenerierung.

Echte Straßendaten bringen drei Probleme mit sich

Die Arbeit mit realen Aufnahmen stellt das Modell vor Herausforderungen, die bei rein synthetischen Weltmodellen nicht auftreten. Am schwersten wiegt, dass Street-View-Bilder Momentaufnahmen sind. Autos und Fußgänger, die zum Aufnahmezeitpunkt dort standen, haben mit der dynamischen Szene, die das Modell generieren soll, nichts zu tun. Ohne Gegenmaßnahme würde das Modell diese zufälligen Objekte aus den Referenzbildern in die generierte Szene kopieren.

Drei Spalten zeigen jeweils zwei Straßenszenen aus Seoul. Links die Street-View-Referenzbilder mit Autos, Motorrädern und Fußgängern. In der Mitte Heatmaps des vollständigen Modells, die vor allem auf Gebäudefassaden und Straßenmarkierungen leuchten. Rechts Heatmaps ohne Cross-temporal Pairing, bei denen die stärkste Aufmerksamkeit auf Fahrzeugen und Personen liegt. — Mit dem Mechanismus (Mitte) achtet das Modell primär auf Gebäude und Straßen. Ohne ihn (rechts) fixiert es sich auf Autos und Fußgänger, die es dann fälschlicherweise aus den Referenzbildern kopiert. | Bild: Naver

Die Forscher lösen das mit Cross-temporal Pairing: Im Training kombinieren sie Referenzbilder und Zielsequenzen bewusst aus unterschiedlichen Aufnahmezeitpunkten. So lernt das Modell, dauerhafte Strukturen wie Gebäudefassaden von zufällig anwesenden Objekten wie parkenden Autos zu unterscheiden. In den Ablationsstudien erweist sich dieser Mechanismus als wirkungsvollster Einzelfaktor.

Hinzu kommt, dass Street-View-Kameras auf Fahrzeugen montiert sind und nur alle 5 bis 20 Meter ein Bild aufnehmen. Es gibt also weder durchgehende Videos noch Aufnahmen aus Fußgängerperspektive oder aus der Luft. Um diese Lücke zu schließen, erzeugen die Forscher 12.700 synthetische Videos im Unreal-Engine-Simulator CARLA, mit Kamerapfaden aus Fußgänger-, Fahrzeug- und Freiflugperspektive. Zusätzlich entwickelten sie eine Pipeline, die aus den räumlich verstreuten Einzelbildern zeitlich zusammenhängende Trainingsvideos interpoliert.

Übersicht der Trainingsdaten in zwei Reihen. Oben reale Daten: Ein Kartenausschnitt von Seoul mit markierten Aufnahmepunkten, daneben zwei Referenzbilder derselben Straße aus verschiedenen Zeitpunkten mit unterschiedlichen Fahrzeugen, rechts vier Frames des Zielvideos. Unten synthetische Daten: Eine Simulatorkarte, zwei Referenzbilder einer computergenerierten Stadt und vier Frames eines synthetischen Videos aus Fußgänger- und Fahrzeugperspektive. — Oben echte Street-View-Bilder aus Seoul, bei denen Referenzbilder und Zielvideo bewusst aus unterschiedlichen Zeitpunkten stammen. Unten synthetische Daten aus dem CARLA-Simulator mit Fußgänger- und Fahrzeugperspektiven.| Bild: Naver

Schließlich schaukeln sich bei langen Strecken kleine Fehler auf, weil das Modell Video Abschnitt für Abschnitt erzeugt. Bisherige Methoden nutzen das allererste Bild als festen Orientierungspunkt, doch der verliert seinen Nutzen, sobald die Kamera Hunderte Meter weitergefahren ist.

SWM ersetzt diesen statischen Anker durch einen sogenannten Virtual Lookahead Sink: Für jeden neuen Abschnitt ruft das Modell ein Street-View-Bild ab, das etwas weiter voraus auf der Strecke liegt, und fügt es als virtuelles Ziel ein. So steht dem Modell stets ein fehlerfreier Orientierungspunkt zur Verfügung, der sich mit der Kamerabewegung mitbewegt.

Tiefenkarten und Originalbilder ergänzen sich

Die abgerufenen Street-View-Bilder fließen über zwei ergänzende Wege in die Generierung ein. Einerseits projiziert das Modell eine räumlich nahe Referenzaufnahme mithilfe ihrer Tiefeninformationen in die Zielperspektive und erhält so Hinweise auf das räumliche Layout der Szene.

Andererseits werden die Referenzbilder nicht direkt als Rohbilder in den Transformer eingespeist, sondern zunächst in latente Repräsentationen kodiert und als semantische Referenzen eingebunden. Dadurch kann das Modell zusätzliche Erscheinungsdetails der Umgebung nutzen. Laut den Forschern verschlechtert sich die Qualität deutlich, wenn einer dieser beiden Pfade wegfällt.

Technisch baut SWM auf Nvidias Cosmos-Predict2.5-2B auf, einem Diffusion-Transformer mit zwei Milliarden Parametern. Die Forscher trainierten das Modell auf 24 Nvidia-H100-GPUs mit 440.000 Seoul-Street-View-Bildern, den synthetischen CARLA-Daten und öffentlich verfügbaren Waymo-Fahrdaten.

Architekturdiagramm des Seoul World Model. Oben links die Eingaben des Nutzers mit Textbeschreibung, GPS-Koordinaten und Tastatur-Steuerung. In der Mitte die Kameratrajektorie, die eine Suche in der Street-View-Datenbank auslöst. Die gefundenen Bilder fließen über zwei Pfade in den Video Diffusion Transformer ein: links über geometrische Reprojektion, rechts als unveränderte Referenzbilder. Dazwischen der Virtual Lookahead Sink als vorausschauender Ankerpunkt. — Nutzer geben Koordinaten, Kamerabewegung und Text ein. Das Modell ruft passende Street-View-Bilder ab und speist sie auf zwei Wegen in den Video-Transformer ein, einmal als räumliches Layout per Tiefenkarte, einmal als Originalbilder für feine Details. | Bild: Naver

Modell funktioniert auch in Städten, die es nie gesehen hat

Die Forscher haben SWM in Seoul und zudem in Busan und der US-Stadt Ann Arbor getestet, obwohl beide Städte im Training vollständig fehlten. Auf eigens erstellten Benchmarks mit jeweils 30 Testsequenzen von etwa 100 Metern Länge übertrifft SWM laut dem Paper sechs aktuelle Video-Weltmodelle, darunter Aether, DeepVerse und HY-World1.5, in visueller Qualität, Kameratreue, zeitlicher Konsistenz und Übereinstimmung mit den realen Orten.

Bestehende Modelle driften den Vergleichen zufolge über längere Strecken zunehmend ab, was zu verschwommenen Videos oder einem vollständigen Zusammenbruch der Generierung führe. SWM halte die Ausgabe hingegen über Hunderte Meter stabil. Trotz der strikten räumlichen Verankerung lässt sich das Modell per Textprompt steuern: Nutzer können Wetter, Tageszeit oder hypothetische Szenarien verändern, während das zugrundeliegende Stadtlayout erhalten bleibt.

Fehlende Videodaten begrenzen die Qualität

Die Forscher benennen auch Schwächen ihres Ansatzes. Weil durchgehende Videoaufnahmen ganzer Städte nicht frei verfügbar seien, basiere das Training auf interpolierten Sequenzen aus Einzelbildern, die qualitativ hinter echtem Videomaterial zurückblieben. Fehlerhafte Zeitstempel in den Metadaten führten zudem gelegentlich dazu, dass Fahrzeuge in generierten Videos abrupt auftauchen oder verschwinden.

Alle verwendeten Street-View-Daten seien datenschutzkonform verarbeitet, Gesichter und Kennzeichen vor dem Training unkenntlich gemacht worden. Als Anwendungsfelder nennen die Forscher Stadtplanung, autonomes Fahren und standortbasierte Exploration.

Weltmodelle sind derzeit ein intensiv beforschtes Feld in der KI-Branche. Runway stellte kürzlich mit GWM-1 ein erstes "General World Model" vor, das eine interne Darstellung einer Umgebung aufbaut und künftige Ereignisse in Echtzeit simulieren soll. Google-Deepmind-CEO Demis Hassabis sieht in solchen Modellen einen entscheidenden Schritt auf dem Weg zur allgemeinen künstlichen Intelligenz und beschreibt ihren Aufbau als langjährige Kernstrategie von Deepmind. Eine aktuelle Studie von Microsoft Research und mehreren US-Universitäten zeigte zudem, dass auch große Sprachmodelle als Weltmodelle fungieren können, indem sie Umgebungszustände mit mehr als 99 Prozent Genauigkeit vorhersagen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv