Skyfall-GS verwandelt Satellitenbilder in begehbare 3D-Städte

2. November 2025

Lee et al.

Kurz & Knapp

Forschende haben mit Skyfall-GS ein KI-System entwickelt, das aus gewöhnlichen Satellitenbildern realistische 3D-Modelle ganzer Städte erzeugt.
Das System kombiniert 3D-Gaussian-Splatting für die Grundstruktur mit KI-Diffusionsmodellen zur Ergänzung fehlender Details und erzielt damit in Nutzerstudien eine deutlich höhere Qualität und Geschwindigkeit als bisherige Methoden.
Einsatzmöglichkeiten reichen von Gaming und Filmproduktionen bis zur Robotik, wobei der Code öffentlich verfügbar ist; Einschränkungen bestehen aktuell noch beim Rechenaufwand und bei sehr detailreichen Straßenszenen.

Forschende haben eine KI-Methode entwickelt, die aus normalen Satellitenbildern begehbare 3D-Städte generiert. Das System namens Skyfall-GS soll erstmals immersive Stadtmodelle nur aus Luftaufnahmen erstellen, ohne teure 3D-Scanner oder Street-View-Fahrzeuge zu benötigen.

Das zentrale Problem bei Satellitenbildern besteht darin, dass sie Gebäude nur von oben zeigen. Fassaden, Straßendetails und seitliche Strukturen bleiben unsichtbar. Bisherige Versuche, daraus 3D-Modelle zu erstellen, produzierten laut den Forschenden verschwommene oder verzerrte Gebäudefassaden oder unrealistische Darstellungen.

Traditionelle 3D-Rekonstruktionen (naive 3DGS, Sat-NeRF) liefern unscharfe Fassaden, während CityDreamer und GaussianCity Gebäudegeometrien stark vereinfachen. Skyfall-GS erzeugt hingegen realistische Strukturen und Erscheinungsbilder aus Luftbildern und übertrifft damit frühere Ansätze. | Bild: Lee et al.

Skyfall-GS löst das mit einem zweistufigen Ansatz. Zunächst erstellt das System aus den Satellitenbildern eine grobe 3D-Grundstruktur. Anschließend ergänzt eine KI die fehlenden Details wie Fassaden und Straßenansichten, ähnlich wie KI-Bildgeneratoren fehlende Bildteile vervollständigen können.

Der Name "Skyfall" beschreibt dabei die Lernstrategie. Das System beginnt mit Luftaufnahmen und arbeitet sich schrittweise zu bodennahen Perspektiven vor, als würde eine Kamera vom Himmel zum Boden wandern.

Zweistufiger Aufbau des 3D-Modells

Das Verfahren kombiniert zwei KI-Technologien. Für die 3D-Grundstruktur nutzt Skyfall-GS eine Methode namens 3D Gaussian Splatting, die 3D-Szenen als Sammlung von Lichtpunkten darstellt. Für die fehlenden Details kommen Diffusionsmodelle zum Einsatz, die die Basis für generative Bildmodelle wie Midjourney liefern.

Zunächst entsteht eine grobe 3D-Grundstruktur, die anschließend durch ein iteratives KI-Diffusionsmodell um Fassaden- und Straßendetails ergänzt wird. | Bild: Lee et al.

Das System arbeitet in fünf Durchgängen. In jedem Durchgang bewegt sich die virtuelle Kamera etwas tiefer, von 85 Grad Neigung bis hinunter zu 45 Grad. Pro Durchgang erstellt die KI 54 verschiedene Ansichten und verfeinert diese mit speziellen Text-Anweisungen.

Vom steilen Blickwinkel (78 Grad) zur flachen Ansicht (17 Grad) nimmt die Schärfe der 3D-Rekonstruktion stark ab, weshalb das Modell schrittweise von oben nach unten optimiert wird. | Bild: Lee et al.

Diese Anweisungen beschreiben, was die KI verbessern soll. Ein "Satellitenbild eines Stadtgebiets mit verzerrten Bereichen und Unschärfe-Artefakten" wird zu einem "klaren Satellitenbild mit scharfen Gebäuden, glatten Kanten und natürlicher Beleuchtung" transformiert.

Die KI-basierte Diffusionsverfeinerung entfernt Artefakte und erzeugt deutlich schärfere Texturen sowie präzisere Gebäudeformen, könnte aber Details hinzuhalluzinieren. | Bild: Lee et al.

Überlegene Leistung in Tests

Die Forschenden testeten ihr System mit echten Satellitenbildern aus Jacksonville, Florida, und New York City. Im Vergleich zu bestehenden Methoden erzielte Skyfall-GS durchgängig bessere Ergebnisse.

Skyfall-GS erzeugt in niedrig abgewinkelten Ansichten auf DFC2019 und GoogleEarth deutlich realistischere Gebäudegeometrie und sauberere Texturen als alle Vergleichsmethoden. | Bild: Lee et al.

In Nutzerstudien mit 89 Teilnehmern gewann das neue Verfahren in 97 Prozent der Fälle gegen die Konkurrenz, sowohl bei der geometrischen Genauigkeit als auch bei der Gesamtqualität der 3D-Modelle.

Auch bei der Geschwindigkeit überzeugt das System. Es erreicht 11 Bilder pro Sekunde auf einer mittleren Grafikkarte und sogar 40 Bilder pro Sekunde auf einem MacBook Air. Zum Vergleich schafft CityDreamer nur 0,18 Bilder pro Sekunde, obwohl es auf deutlich teurerer Hardware läuft.

Anwendungen von Gaming bis Robotik

Die Einsatzmöglichkeiten reichen weit. Videospiel-Entwickler könnten realistische Städte für Open-World-Games erstellen, ohne aufwendige 3D-Modellierung. Filmstudios könnten digitale Kulissen für beliebige Orte weltweit generieren. Robotik-Forschende könnten ihre Systeme in virtuellen Nachbildungen echter Städte testen.

Das verfügbare Rohmaterial ist umfangreich. Moderne Satelliten wie WorldView-3 erfassen täglich etwa 680 000 Quadratkilometer mit Auflösungen bis zu 31 Zentimetern pro Pixel. Diese Datenmengen könnten theoretisch für die automatisierte Erstellung von 3D-Modellen ganzer Kontinente genutzt werden.

Die Forschenden räumen ein, dass ihr Verfahren noch viel Rechenleistung benötigt und bei sehr detaillierten Straßenansichten an Grenzen stößt. Zukünftige Versionen sollen effizienter werden und größere Gebiete abdecken können. Der Code ist auf GitHub öffentlich verfügbar. Auf der Website des Projektes finden sich auch mehrere interaktive Demos.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv | Skyfall-GS