Forschende von Meta haben mit der Unreal Engine neue fotorealistische synthetische Datensätze entwickelt, die helfen sollen, KI-Modelle besser zu benchmarken und robuster zu machen.
Meta-Forschende haben eine Familie synthetischer Bilddatensätze namens PUG (Photorealistic Unreal Graphics) entwickelt, die neue Möglichkeiten für die Evaluierung und das Training von KI-Systemen bieten. Um die nahezu fotorealistischen Bilddaten zu erzeugen, wurde die Unreal Engine verwendet, eine hochmoderne Echtzeit-3D-Grafik-Engine.
Synthetische Datensätze wurden zwar schon früher erstellt, doch fehlte es ihnen oft an Realismus, was ihren Nutzen einschränkte, so das Team. Die Unreal Engine soll die Lücke zwischen synthetischen und realen Daten schließen.
Meta stellt vier PUG-Datensätze vor:
- PUG: Animals enthält über 200.000 Bilder von Tieren in verschiedenen Posen, Größen und Umgebungen. Es kann verwendet werden, um die Robustheit von Computer Vision Modellen und deren Modelldarstellungen zu untersuchen.
- PUG: ImageNet mit über 90.000 Bildern kann als zusätzliches Robustheitstestpaket für ImageNet verwendet werden und enthält eine Vielzahl von Modifikationen wie Pose, Hintergrund, Größe, Textur und Beleuchtung.
- PUG: SPAR mit mehr als 40.000 Bildern wird zur Evaluierung von Bildsprachmodellen für das Verständnis von Szenen, Positionen, Attributen und Beziehungen verwendet.
- PUG: AR4T liefert ca. 250.000 Bilder für die Feinabstimmung von Bildsprachmodellen und konzentriert sich auf räumliche Beziehungen und Bildattribute.
PUG deckt die Probleme führenden ImageNet-Modelle auf
Zusätzlich zu den Datensätzen können Forscher die PUG-Umgebung nutzen, um ihre eigenen Daten zu erzeugen, indem sie Faktoren wie Beleuchtung und Blickwinkel genau spezifizieren, die in realen Datensätzen schwer zu kontrollieren sind. Die Möglichkeit, Daten zu erzeugen, die eine ganze Reihe von Bereichen abdecken, ermögliche eine zuverlässigere Bewertung und ein zuverlässigeres Training von Bildsprachmodellen im Vergleich zu bestehenden Benchmarks, schreibt das Team.
In Experimenten demonstrierten die Forscher die Fähigkeit von PUG, die Robustheit von Modellen zu bewerten: PUG zeigte, dass die besten Modelle in ImageNet nicht unbedingt die robustesten gegenüber Faktoren wie Pose und Beleuchtung sind. Außerdem zeigte das Team anhand der Benchmarks, wie verschiedene Bildsprachmodelle Beziehungen zwischen Bildern und Text erfassen.
Weitere Informationen und Daten sind auf der Website des PUG-Projekts zu finden.