Inhalt
summary Zusammenfassung

Forschende von Meta haben mit der Unreal Engine neue fotorealistische synthetische Datensätze entwickelt, die helfen sollen, KI-Modelle besser zu benchmarken und robuster zu machen.

Meta-Forschende haben eine Familie synthetischer Bilddatensätze namens PUG (Photorealistic Unreal Graphics) entwickelt, die neue Möglichkeiten für die Evaluierung und das Training von KI-Systemen bieten. Um die nahezu fotorealistischen Bilddaten zu erzeugen, wurde die Unreal Engine verwendet, eine hochmoderne Echtzeit-3D-Grafik-Engine.

Synthetische Datensätze wurden zwar schon früher erstellt, doch fehlte es ihnen oft an Realismus, was ihren Nutzen einschränkte, so das Team. Die Unreal Engine soll die Lücke zwischen synthetischen und realen Daten schließen.

Meta stellt vier PUG-Datensätze vor:

Anzeige
Anzeige
  • PUG: Animals enthält über 200.000 Bilder von Tieren in verschiedenen Posen, Größen und Umgebungen. Es kann verwendet werden, um die Robustheit von Computer Vision Modellen und deren Modelldarstellungen zu untersuchen.
  • PUG: ImageNet mit über 90.000 Bildern kann als zusätzliches Robustheitstestpaket für ImageNet verwendet werden und enthält eine Vielzahl von Modifikationen wie Pose, Hintergrund, Größe, Textur und Beleuchtung.
  • PUG: SPAR mit mehr als 40.000 Bildern wird zur Evaluierung von Bildsprachmodellen für das Verständnis von Szenen, Positionen, Attributen und Beziehungen verwendet.
  • PUG: AR4T liefert ca. 250.000 Bilder für die Feinabstimmung von Bildsprachmodellen und konzentriert sich auf räumliche Beziehungen und Bildattribute.

PUG deckt die Probleme führenden ImageNet-Modelle auf

Zusätzlich zu den Datensätzen können Forscher die PUG-Umgebung nutzen, um ihre eigenen Daten zu erzeugen, indem sie Faktoren wie Beleuchtung und Blickwinkel genau spezifizieren, die in realen Datensätzen schwer zu kontrollieren sind. Die Möglichkeit, Daten zu erzeugen, die eine ganze Reihe von Bereichen abdecken, ermögliche eine zuverlässigere Bewertung und ein zuverlässigeres Training von Bildsprachmodellen im Vergleich zu bestehenden Benchmarks, schreibt das Team.

Video: Meta

In Experimenten demonstrierten die Forscher die Fähigkeit von PUG, die Robustheit von Modellen zu bewerten: PUG zeigte, dass die besten Modelle in ImageNet nicht unbedingt die robustesten gegenüber Faktoren wie Pose und Beleuchtung sind. Außerdem zeigte das Team anhand der Benchmarks, wie verschiedene Bildsprachmodelle Beziehungen zwischen Bildern und Text erfassen.

Weitere Informationen und Daten sind auf der Website des PUG-Projekts zu finden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta-Forschende haben mit der Unreal Engine eine Familie synthetischer Bilddatensätze namens PUG (Photorealistic Unreal Graphics) erstellt, um die Evaluierung und das Training von KI-Systemen zu verbessern.
  • Die PUG-Datensätze bieten fotorealistische Bilder, die die Lücke zwischen synthetischen und realen Daten schließen, darunter mehr als 200.000 Tierbilder, 90.000 ImageNet-Bilder und andere für Bildsprachmodelle.
  • Die PUG-Umgebung ermöglicht die Erstellung benutzerspezifischer Datensätze, bietet Kontrolle über Faktoren wie Beleuchtung und Blickwinkel und ermöglicht eine zuverlässigere Evaluierung und Schulung von KI-Systemen im Vergleich zu bestehenden Benchmarks.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!