Skyfall-GS verwandelt Satellitenbilder in begehbare 3D-Städte
Kurz & Knapp
- Forschende haben mit Skyfall-GS ein KI-System entwickelt, das aus gewöhnlichen Satellitenbildern realistische 3D-Modelle ganzer Städte erzeugt.
- Das System kombiniert 3D-Gaussian-Splatting für die Grundstruktur mit KI-Diffusionsmodellen zur Ergänzung fehlender Details und erzielt damit in Nutzerstudien eine deutlich höhere Qualität und Geschwindigkeit als bisherige Methoden.
- Einsatzmöglichkeiten reichen von Gaming und Filmproduktionen bis zur Robotik, wobei der Code öffentlich verfügbar ist; Einschränkungen bestehen aktuell noch beim Rechenaufwand und bei sehr detailreichen Straßenszenen.
Forschende haben eine KI-Methode entwickelt, die aus normalen Satellitenbildern begehbare 3D-Städte generiert. Das System namens Skyfall-GS soll erstmals immersive Stadtmodelle nur aus Luftaufnahmen erstellen, ohne teure 3D-Scanner oder Street-View-Fahrzeuge zu benötigen.
Das zentrale Problem bei Satellitenbildern besteht darin, dass sie Gebäude nur von oben zeigen. Fassaden, Straßendetails und seitliche Strukturen bleiben unsichtbar. Bisherige Versuche, daraus 3D-Modelle zu erstellen, produzierten laut den Forschenden verschwommene oder verzerrte Gebäudefassaden oder unrealistische Darstellungen.

Skyfall-GS löst das mit einem zweistufigen Ansatz. Zunächst erstellt das System aus den Satellitenbildern eine grobe 3D-Grundstruktur. Anschließend ergänzt eine KI die fehlenden Details wie Fassaden und Straßenansichten, ähnlich wie KI-Bildgeneratoren fehlende Bildteile vervollständigen können.
Der Name "Skyfall" beschreibt dabei die Lernstrategie. Das System beginnt mit Luftaufnahmen und arbeitet sich schrittweise zu bodennahen Perspektiven vor, als würde eine Kamera vom Himmel zum Boden wandern.
Zweistufiger Aufbau des 3D-Modells
Das Verfahren kombiniert zwei KI-Technologien. Für die 3D-Grundstruktur nutzt Skyfall-GS eine Methode namens 3D Gaussian Splatting, die 3D-Szenen als Sammlung von Lichtpunkten darstellt. Für die fehlenden Details kommen Diffusionsmodelle zum Einsatz, die die Basis für generative Bildmodelle wie Midjourney liefern.

Das System arbeitet in fünf Durchgängen. In jedem Durchgang bewegt sich die virtuelle Kamera etwas tiefer, von 85 Grad Neigung bis hinunter zu 45 Grad. Pro Durchgang erstellt die KI 54 verschiedene Ansichten und verfeinert diese mit speziellen Text-Anweisungen.

Diese Anweisungen beschreiben, was die KI verbessern soll. Ein "Satellitenbild eines Stadtgebiets mit verzerrten Bereichen und Unschärfe-Artefakten" wird zu einem "klaren Satellitenbild mit scharfen Gebäuden, glatten Kanten und natürlicher Beleuchtung" transformiert.

Überlegene Leistung in Tests
Die Forschenden testeten ihr System mit echten Satellitenbildern aus Jacksonville, Florida, und New York City. Im Vergleich zu bestehenden Methoden erzielte Skyfall-GS durchgängig bessere Ergebnisse.

In Nutzerstudien mit 89 Teilnehmern gewann das neue Verfahren in 97 Prozent der Fälle gegen die Konkurrenz, sowohl bei der geometrischen Genauigkeit als auch bei der Gesamtqualität der 3D-Modelle.
Auch bei der Geschwindigkeit überzeugt das System. Es erreicht 11 Bilder pro Sekunde auf einer mittleren Grafikkarte und sogar 40 Bilder pro Sekunde auf einem MacBook Air. Zum Vergleich schafft CityDreamer nur 0,18 Bilder pro Sekunde, obwohl es auf deutlich teurerer Hardware läuft.
Anwendungen von Gaming bis Robotik
Die Einsatzmöglichkeiten reichen weit. Videospiel-Entwickler könnten realistische Städte für Open-World-Games erstellen, ohne aufwendige 3D-Modellierung. Filmstudios könnten digitale Kulissen für beliebige Orte weltweit generieren. Robotik-Forschende könnten ihre Systeme in virtuellen Nachbildungen echter Städte testen.
Das verfügbare Rohmaterial ist umfangreich. Moderne Satelliten wie WorldView-3 erfassen täglich etwa 680 000 Quadratkilometer mit Auflösungen bis zu 31 Zentimetern pro Pixel. Diese Datenmengen könnten theoretisch für die automatisierte Erstellung von 3D-Modellen ganzer Kontinente genutzt werden.
Die Forschenden räumen ein, dass ihr Verfahren noch viel Rechenleistung benötigt und bei sehr detaillierten Straßenansichten an Grenzen stößt. Zukünftige Versionen sollen effizienter werden und größere Gebiete abdecken können. Der Code ist auf GitHub öffentlich verfügbar. Auf der Website des Projektes finden sich auch mehrere interaktive Demos.