Googles KI-Abteilung Deempind stellt ein neues Verfahren vor, mit dem Computer aus mehreren 2D-Perspektiven eine 3D-Szene rekonstruieren können. Für die Entwicklung Künstlicher Intelligenz wäre das ein großer Schritt.
Einer Künstlichen Intelligenz Objekterkennung beizubringen, ist ein aufwendiger Prozess: Über hunderte oder tausende Bilder hinweg müssen Wissenschaftler Objekte markieren und beschriften, damit der Computer sie aus verschiedenen Blickwinkeln und in unterschiedlichen Szenen wiedererkennen kann.
Dieser Aufwand ist notwendig, da eine Bildanalyse-KI nur Pixelparameter auswertet. Nun hat die Frontalaufnahme eines Menschen aber eine gänzlich andere Pixelstruktur als ein Bild seines Hinterkopfes. Und abhängig davon, wie das Licht fällt, sind auch die Pixel der Frontalaufnahme anders angeordnet.
Der KI fehlt das grundlegende Verständnis für ein Objekt oder eine Szene und mit diesem das Vorstellungsvermögen, wie dasselbe Objekt aus einer Perspektive etwas weiter links oder bei einem Lichteinfall von rechts aussehen würde.
Googles neues neuronales Netz soll visuell lernen wie ein Kleinkind
Deepminds neues "Generative Query Network" (GQN) soll genau das ändern: Es kann anhand von wenigen 2D-Aufnahmen eine einfache 3D-Szene rekonstruieren. Der Computer entwickelt also eine Art Vorstellungskraft.
Das System besteht aus zwei kooperierenden neuronalen Netzen. Das erste analysiert die Pixelwerte der 2D-Aufnahmen. Das zweite rekonstruiert aus diesen Daten die 3D-Szene.
Zeigt man dem Algorithmus beispielsweise einen Würfel von vorne, könnte er automatisch die restlichen Seiten des Würfels ergänzen und ihn aus verschiedenen Perspektiven darstellen. Sogar Beleuchtung und Schatten aus unterschiedlichen Blickwinkeln sollen dabei korrekt berechnet werden.
"So wie Kleinkinder und Tiere lernt das GQN, indem es ein grundlegendes Verständnis für die Umgebung samt der physischen Interaktionen zwischen Objekten darin erlangt", heißt es im Deepmind-Blog. "Das Netzwerk versteht, welche geometrischen Proportionen eine plausible Szene hat, ohne dass der Mensch diese Parameter explizit benennen muss."
Das neuronale Netz bringe die KI-Forschung ein Stück näher an das Ziel, Computer die Welt sehen und verstehen zu lassen wie Menschen. Und zwar ohne menschliche Hilfe.
Es brauche weitere Forschung, bis der Ansatz in der Praxis genutzt werden könne, so Deepmind. Aber GQNs seien ein "beträchtlicher Schritt" hin zu einer völlig autonomen Umwelterkennung durch Maschinen.
Viele Anwendungsszenarien, real und digital
Die Einsatzszenarien für GQNs sind beinahe unendlich. Autonome Roboter gehören dazu:
"Wenn wir komplexere Maschinen entwickeln, die in der realen Welt arbeiten, wollen wir, dass sie ihre Umgebung vollständig verstehen: Wo ist die nächste Oberfläche, auf der sie sitzen können? Aus welchem Material besteht das Sofa? Welche Lichtquelle erzeugt welchen Schatten? Wo ist wahrscheinlich der Lichtschalter?", schreibt Deepmind.
Für Virtual und Augmented Reality könnten sich GQNs ebenfalls als Grundlagentechnologie erweisen: Laien könnten aufwendige 3D-Welten generieren oder GQNs könnten für eine verlässlichere Objekterkennung im Straßenverkehr sorgen.
Derzeit beschränkt sich das Vorstellungsvermögen von GQNs noch auf rein digitale, einfach gehaltene und pixelige 3D-Szenen. Deepmind verspricht jedoch zeitnah robustere Systeme, die eine höhere Komplexität und Auflösung handeln können.
Wer weiß, womöglich ist es zukünftig möglich, anhand von wenigen alten Fotos das Kinderzimmer vergangener Tage als originalgetreues 3D-Modell mit einer VR-Brille zu begehen. Das wäre in der Tat eine außergewöhnliche Zeitreise.