Inhalt
summary Zusammenfassung

Forscher der Stanford University und von Google präsentieren "Streetscapes", ein KI-System, das realistische Straßenansichten ganzer Städte erstellen kann.

Anzeige

Ein Forschungsteam der Stanford University und Google Research hat ein neues KI-System namens "Streetscapes" vorgestellt, das realistische Straßenansichten ganzer Städte erzeugen kann. Konkret generiert das System lange, zusammenhängende Videosequenzen, die eine Fahrt durch eine virtuelle Stadt simulieren. Diese können dann auch via NeRF im 3D-Format exportiert werden.

Streetscapes basiert auf Diffusionsmodellen, die in der Bild- und Videogenerierung weit verbreitet sind. Das System wurde mit Millionen von realen Straßenansichten aus Google Street View trainiert. Dadurch hat es gelernt, wie typische Straßenszenen aussehen.

Als Input erhält Streetscapes eine Straßenkarte, eine Höhenkarte der Gebäude sowie eine gewünschte Kamerafahrt durch die virtuelle Stadt. Daraus generiert es Schritt für Schritt realistische Videosequenzen. Die erzeugten Straßenansichten sehen verblüffend realistisch aus und enthalten viele Details wie Fenster, Pflastersteine und Vegetation. Auch Licht und Schatten werden natürlich wiedergegeben.

Anzeige
Anzeige

Eine wichtige Komponente ist ein sogenanntes "Motion Module", das für Bewegung und zeitliche Konsistenz zwischen aufeinander folgenden Bildern sorgt. Zusätzlich wird die verbesserte zeitliche Konsistenz durch eine neue Technik namens "Temporal Imputation" ermöglicht. Dabei wird jedes neue Bild unter Berücksichtigung der vorhergehenden Bilder erzeugt.

Dadurch kann Streetscapes im Vergleich zu alternativen Ansätzen längere Videosequenzen erzeugen: bis zu 100 Bilder mit Kamerabewegungen, die mehr als 170 Meter abdecken. Streetscapes verwendet eine Architektur, die inzwischen von anderen Modellen zur Videogenerierung wie OpenAIs Sora überholt wurde. Nach Angaben des Teams ist das zugrunde liegende Diffusionsmodell leicht austauschbar, so dass zukünftige Versionen noch bessere Ergebnisse liefern werden.

Streetscapes kann via Textprompt gesteuert werden

Neben der reinen Generierung von Straßenansichten ermöglicht Streetscapes auch kreative Anwendungen. So kann das Aussehen der generierten Stadt durch Textbeschreibungen gesteuert werden, etwa können verschiedene Tageszeiten oder Wetterlagen generiert werden. Auch eine Mischung von Stadtlayouts und Architekturstilen ist möglich - so kann das System unter anderem Pariser Straßen im Stil von New York City visualisieren.

Das Forschungsteam sieht in Streetscapes einen wichtigen Schritt hin zu KI-Systemen, die nicht nur einzelne Objekte, sondern ganze, unbegrenzte Szenen realistisch generieren können. Für die Zukunft planen sie, die Kontrolle über bewegliche Objekte wie Autos zu verbessern. Außerdem wollen sie daran arbeiten, die Konsistenz zwischen aufeinanderfolgenden Bildern weiter zu erhöhen. Mehr Beispiele gibt es auf der Projektseite.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Stanford University und Google haben "Streetscapes" entwickelt, ein KI-System, das realistische Straßenansichten ganzer Städte als Videosequenzen generieren kann. Es basiert auf Diffusionsmodellen und wurde mit Millionen von Google Street View-Bildern trainiert.
  • Das System erzeugt aus Straßenkarten, Höhenkarten und gewünschten Kamerafahrten Schritt für Schritt realistische Videos. Ein "Motion Module" und die "Temporal Imputation"-Technik sorgen dabei für Bewegung und zeitliche Konsistenz zwischen den Bildern.
  • Streetscapes kann bis zu 100 Bilder mit Kamerabewegungen über 170 Meter erzeugen und ermöglicht kreative Anwendungen wie die Steuerung des Stadtaussehens durch Textbeschreibungen. Die Forscher planen, die Kontrolle über bewegliche Objekte und die Bildkonsistenz weiter zu verbessern.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!