Inhalt
newsletter Newsletter

Deepmind zeigt ein KI-System, das intuitive Physik erlernt. Inspiriert wurde das Team von Erkenntnissen aus der Entwicklungspsychologie.

Anzeige

Künstliche Intelligenz hat in den letzten Jahren dank Fortschritten in Hardware, Netzwerkarchitekturen und -methoden zahlreiche Benchmarks geknackt und Domänen menschlicher Intelligenz erobert. Doch trotz Erfolgen wie AlphaGo, AlphaFold, GPT-3 oder DALL-E 2 mangelt es noch immer an dem, was häufig als gesunder Menschenverstand bezeichnet wird. Innerhalb der KI-Forschung werden mögliche Wege zu diesen Fähigkeiten lebhaft diskutiert, etwa jüngst besonders prominent auf Twitter zwischen Metas KI-Chef Yann LeCun und Gary Marcus.

Ein Team von Deepmind widmet sich nun in der neuen Forschungsarbeit einem bestimmten Aspekt dieser Debatte, der intuitiven Physik. In der Entwicklungspsychologie wird so häufig das Netzwerk von Konzepten bezeichnet, das unseren Überlegungen über die Eigenschaften und Wechselwirkungen makroskopischer Objekte zugrunde liegt. Dieses Physik-Verständnis ist fundamental für verkörperte Intelligenz, da sie grundlegend für jede Aktion in der Umwelt ist. Es bildet außerdem ein Fundament für begriffliches Wissen und kompositorische Repräsentationen im Allgemeinen.

Deepminds PLATO und das Paradigma der Erwartungsverletzung

In der neuen Arbeit orientiert sich das Team an zentralen Erkenntnissen und Methoden der Entwicklungspsychologie zur intuitiven Physik: So werde Physik auf der Ebene diskreter Objekte und ihrer Wechselwirkung verstanden, schreiben die Forschenden in ihrer Veröffentlichung. Diese erlauben die Bildung von fünf Konzepten: Kontinuität von Objekten, Objektpermanenz, Solidität, Unveränderlichkeit und Trägheit bei Richtungsänderungen. Sind diese Konzepte vorhanden, hat ein Lebewesen ein intuitives Physik-Verständnis ausgebildet.

Anzeige
Anzeige

In der Entwicklungspsychologie werden diese Konzepte mit dem sogenannten Erwartungsverletzung-Paradigma (violation-of-expectation, kurz VoE) untersucht. Das Paradigma sagt aus, dass ein Mensch, der eines der oben aufgeführten Konzepte besitzt, eine Reihe von Erwartungen an das Verhalten von Objekten hat. So sagt etwa das Konzept der Objektpermanenz aus, dass Objekte nicht aufhören zu existieren, wenn sie aus dem Blickfeld verschwinden.

Deepmind erzeugt eigene VoE-Videos. Hier ein Beispiel, in dem ein Objekt einen sichtbaren Bereich im Bild überspringt. | Bild: Deepmind / Piloto et al.

In Versuchen mit Säuglingen oder Kleinkindern werden diese Erwartungen etwa in Videos gebrochen, um festzustellen, ob die Kinder überrascht sind. Blickt ein Säugling etwa länger auf ein Objekt, nachdem es die Gesetze der Physik gebrochen hat, ist das ein Hinweis auf eine Erwartungsverletzung und damit auf ein vorhandenes Konzept der intuitiven Physik.

Deepminds Team trainiert daher PLATO (Physics Learning through Auto-encoding and Tracking Objects), ein Deep-Learning-System, das das Verhalten von simplen physikalischen Objekten in Videos vorhersagt. Deepmind testete es anschließend mit dem Erwartungsverletzungsparadigma auf die fünf zuvor genannten Konzepte.

Deepmind generiert 300.000 Videoclips physikalischer Objekte

Für das Training von PLATO erstellte Deepmind den Physical Concepts Datensatz, der aus 300.000 kurzen Videos simpler, animierter 3D-Objekte besteht, etwa einem Ball, der hinter einem Hindernis vorbeirollt und auf der anderen Seite wieder auftaucht. PLATO besteht aus zwei Komponenten: ein Wahrnehmungsmodul, das einzelne Bilder in eine Reihe von Objektcodes umwandelt und ein Dynamik-Prädiktor, der zukünftige Bilder mithilfe der Objektcodes des Wahrnehmungsmoduls vorhersagt. Die Objektcodes entsprechen hier den aus der Entwicklungspsychologie bekannten Repräsentationen diskreter Objekte, die als Grundlage der intuitiven Physik dienen.

Deepminds PLATO besteht aus zwei Komponenten. Zentrales Element ist dabei die Repräsentation und Verarbeitung einzelner Objekte als Objektcodes. | Bild: Deepmind / Piloto et al.

So ausgestattet, könne PLATO intuitive Physik und zumindest einige der fünf Konzepte lernen, vermutete das Team. Nach dem Training testeten die Forschenden PLATO daher mit unterschiedlichen VoE-Videos, also kurzen Clips, die bestimmte Konzepte überprüfen, etwa indem sich ein Objekt im Sichtfeld teleportiert.

Empfehlung

PLATO orientiert sich an physikalischen Objekten

Jedes Video, das einen Verstoß gegen physikalische Prinzipien zeigt, wurde zudem ein entsprechendes Video gegenübergestellt, das physikalisch korrekt abläuft. Das ermöglichte den Forschenden, die Vorhersagen zu vergleichen. Das Team trainierte zusätzlich Varianten eines zweiten Objekt-agnostischen KI-Modells, das ebenfalls zukünftige Bilder der Videos vorhersagt, jedoch nicht mit Objektcodes arbeitet.

Im Test zeigte PLATO deutliche VoE-Effekte in allen fünf Konzept-Proben - die KI-Vervollständigungen orientierten sich stark an physikalischen Konzepten und stimmten daher in VoE-Fällen nicht mit dem Verlauf des Videos überein. Die alternativen Objekt-agnostischen Modelle ohne Objektcodes erzielten dagegen keine Ergebnisse, die Zufall überschritten.

In einem weiteren Versuch zeigte das Team zudem, dass sich ähnliche Ergebnisse bereits durch ein Training von Modellen mit nur 50.000 Videos erreichen lassen - das entspricht 28 Stunden visueller Daten. Ein möglicher Hinweis, dass auch das menschliche Gehirn solche Konzepte mit visuellem Beobachten lernen könnte.

Haupt-Autor Luis Piloto betont jedoch, dass PLATO nicht als Modell für das Verhalten von Säuglingen designt wurde. Es könne jedoch ein erster Schritt für ein KI-System sein, das Hypothesen testen könnte, wie menschliche Säuglinge lernen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!