Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

DiffusionLight ist eine Methode, bei der die Belichtung einer Umgebung über eine generierte Chromsphäre ausgewertet wird.

Forschende haben eine einfache, aber effektive Technik entwickelt, um die Beleuchtung in einem einzigen Eingabebild zu schätzen. Sie verwenden Diffusionsmodelle, die an Milliarden von Standardbildern trainiert wurden, um eine Chromkugel in das Eingabebild zu rendern und so als Lichtsonde zu nutzen.

Diese Methode hat eine Vielzahl von Anwendungen, darunter das realistische Einfügen virtueller Objekte in Bilder, Verbesserungen in AR und VR, realistische Visualisierungen in Architektur und Innenarchitektur, realistischere Szenen in Computerspielen, präzisere Planung in Fotografie und Film.

DiffusionLight nutzt Stable Diffusion XL

Aktuelle Techniken zur Beleuchtungsschätzung basieren auf HDR-Panoramadatensätzen, mit denen neuronale Netze trainiert werden. Diese Ansätze haben jedoch oft Probleme mit realen Aufnahmen aufgrund der begrenzten Vielfalt und Größe der verfügbaren Datensätze.

Anzeige
Anzeige

Die "DiffusionLight" genannte Technik verwendet dagegen das mit Milliarden von Bildern vortrainierte Diffusionsmodell Stable Diffusion XL, um eine Chromkugel in das Eingabebild zu rendern. Die Methode geht davon aus, dass die KI-Modelle durch Beispiele von unter- und überbelichteten Bildern in ihren Trainingssets indirekt etwas über HDR und den großen Helligkeitsbereich gelernt haben.

Ohne weitere Eingriffe erzeugt SDXL jedoch falsche oder inkonsistente Objekte und kann nicht ohne weiteres Bilder im HDR-Format erzeugen. Die Forschenden haben daher eine Technik namens "Iteratives Inpainting" verwendet, um eine anfängliche Diffusionsrauschkarte zu finden, die dann verwendet wird, um Chromsphären von konsistenter Qualität zu erzeugen.

Um HDR-Chromsphären zu erzeugen, generieren und kombinieren die Forschenden auch mehrere LDR-Chromsphären mit unterschiedlichen Belichtungswerten, die zur weiteren Verfeinerung von SDXL mit einer speziellen LoRA verwendet werden.

Nach dem Training liefert DiffusionLight überzeugende Lichtschätzungen in verschiedenen Einstellungen und kann ganz unterschiedliche Szenen verarbeiten.

DiffusionLight liefert die notwendigen Informationen, um die Beleuchtung platzierter 3D-Objekte an die der Umgebung anzupassen. | Video: Phongthawee, Chinchuthakun et al.

Empfehlung

Mehr Informationen und Beispiele gibt es auf der Projektseite von DiffusionLight.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende entwickeln DiffusionLight, eine Methode zur Schätzung der Beleuchtung in Bildern, indem sie eine generierte Chromsphäre als Lichtsonde verwenden. Diese Technik hat Anwendungen in AR, VR, Architekturvisualisierung und Computerspielen.
  • DiffusionLight nutzt das Stable Diffusion XL-Modell, das mit Milliarden von Bildern trainiert wurde, um realistischere Beleuchtungsschätzungen zu ermöglichen, im Gegensatz zu herkömmlichen HDR-Panoramadatensätzen.
  • Die Forschenden verwenden "Iteratives Inpainting" und eine spezielle LoRA, um konsistente Chromsphären und HDR-Bilder zu erzeugen, wodurch DiffusionLight in verschiedenen Einstellungen überzeugende Lichtschätzungen liefert.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!