Forscher der Stanford University und von Google präsentieren "Streetscapes", ein KI-System, das realistische Straßenansichten ganzer Städte erstellen kann.
Ein Forschungsteam der Stanford University und Google Research hat ein neues KI-System namens "Streetscapes" vorgestellt, das realistische Straßenansichten ganzer Städte erzeugen kann. Konkret generiert das System lange, zusammenhängende Videosequenzen, die eine Fahrt durch eine virtuelle Stadt simulieren. Diese können dann auch via NeRF im 3D-Format exportiert werden.
Streetscapes basiert auf Diffusionsmodellen, die in der Bild- und Videogenerierung weit verbreitet sind. Das System wurde mit Millionen von realen Straßenansichten aus Google Street View trainiert. Dadurch hat es gelernt, wie typische Straßenszenen aussehen.
Als Input erhält Streetscapes eine Straßenkarte, eine Höhenkarte der Gebäude sowie eine gewünschte Kamerafahrt durch die virtuelle Stadt. Daraus generiert es Schritt für Schritt realistische Videosequenzen. Die erzeugten Straßenansichten sehen verblüffend realistisch aus und enthalten viele Details wie Fenster, Pflastersteine und Vegetation. Auch Licht und Schatten werden natürlich wiedergegeben.
Eine wichtige Komponente ist ein sogenanntes "Motion Module", das für Bewegung und zeitliche Konsistenz zwischen aufeinander folgenden Bildern sorgt. Zusätzlich wird die verbesserte zeitliche Konsistenz durch eine neue Technik namens "Temporal Imputation" ermöglicht. Dabei wird jedes neue Bild unter Berücksichtigung der vorhergehenden Bilder erzeugt.
Dadurch kann Streetscapes im Vergleich zu alternativen Ansätzen längere Videosequenzen erzeugen: bis zu 100 Bilder mit Kamerabewegungen, die mehr als 170 Meter abdecken. Streetscapes verwendet eine Architektur, die inzwischen von anderen Modellen zur Videogenerierung wie OpenAIs Sora überholt wurde. Nach Angaben des Teams ist das zugrunde liegende Diffusionsmodell leicht austauschbar, so dass zukünftige Versionen noch bessere Ergebnisse liefern werden.
Streetscapes kann via Textprompt gesteuert werden
Neben der reinen Generierung von Straßenansichten ermöglicht Streetscapes auch kreative Anwendungen. So kann das Aussehen der generierten Stadt durch Textbeschreibungen gesteuert werden, etwa können verschiedene Tageszeiten oder Wetterlagen generiert werden. Auch eine Mischung von Stadtlayouts und Architekturstilen ist möglich - so kann das System unter anderem Pariser Straßen im Stil von New York City visualisieren.
Das Forschungsteam sieht in Streetscapes einen wichtigen Schritt hin zu KI-Systemen, die nicht nur einzelne Objekte, sondern ganze, unbegrenzte Szenen realistisch generieren können. Für die Zukunft planen sie, die Kontrolle über bewegliche Objekte wie Autos zu verbessern. Außerdem wollen sie daran arbeiten, die Konsistenz zwischen aufeinanderfolgenden Bildern weiter zu erhöhen. Mehr Beispiele gibt es auf der Projektseite.