Microsofts Deep-Learning-Gruppe bringt einer Künstlichen Intelligenz das Zeichnen anhand von Textbeschreibungen bei. Die Ergebnisse überzeugen, solange nicht zu viel Fantasie verlangt wird.
Die Microsoft-KI kann Bilder eines Objekts zeichnen, das in einem Text beschrieben wird. Dabei fügt sie mitunter Details hinzu, die nicht im Text enthalten sind, was laut Microsoft auf eine "künstliche Vorstellungskraft" schließen lässt.
Trainiert wird die KI mit Wort-Bild-Paaren, anhand derer sie lernt, Begriffe mit Motiven zu verbinden. Die Microsoft-Forscher zeigten ihr zum Beispiel Bilder eines Vogels, die mit dem Wort Vogel markiert waren. So erlangte die KI eine Vorstellung davon, wie ein Bild eines Vogels aussehen könnte.
Für die Bildgenerierung nutzt Microsoft ein sogenanntes GAN-Netzwerk (Generative Adversarial Network). Es besteht aus zwei miteinander verschränkten neuronalen Netzen: Eine Generator-KI produziert einen Bildentwurf basierend auf einem Text. Eine Gegner-KI beurteilt die Glaubhaftigkeit des Entwurfs und gibt der Generator-KI Rückmeldung. Anhand dieser optimiert die Generator-KI den Entwurf, bis die Gegner-KI das Bild für echt hält und durchwinkt.
Male einen rot-weißen Vogel mit kurzem Schnabel
Die Besonderheit der neuen Microsoft-KI ist, dass sie auf komplexe Anweisungen hört, also nicht nur "male Vogel", sondern "male einen rot-weißen Vogel mit einem sehr kurzen Schnabel". Die KI fügt der Szene außerdem ungefragt Details hinzu: So sitzt der Vogel meist auf einem Ast, auch wenn dieser nicht im Text erwähnt wird.
Microsoft räumt ein, dass das KI-System noch nicht perfekt arbeitet: Es produziere "fast immer" ungewöhnliche Fehler in den Bildern, die zeigten, dass ein Computer und kein Mensch den digitalen Pinsel schwingt. Dennoch soll die KI laut Microsoft dreimal besser arbeiten als bisherige Systeme.
Mit eher fantasievollen Anweisungen wie "male eine Katze, die in einem See schwimmt" ist die Künstliche Intelligenz überfordert und produziert undefinierbare Werke, die mit dem Wunschmotiv wenig gemein haben. Bei der Anweisung "male einen Bus, der in einem See treibt" bietet die KI statt des Busses ein verschwommen gezeichnetes Schiff an. Laut den Microsoft-Forschern zeigt sich darin ein "interner Konflikt": Im Text steht Bus, aber die KI weiß, dass für gewöhnlich Schiffe im Wasser schwimmen, nicht Busse.
Bildverbesserung via Spracheingabe
Geht es nach Microsoft, dann nutzen Zeichner oder Raumausstatter die KI-Malerin als Assistenz. Bildoptimierung via Sprachbefehl sei ebenfalls eine Option. Mit mehr Rechenleistung könne die KI womöglich animierte Filme anhand eines Drehbuchs generieren und den manuellen Produktionsaufwand reduzieren, glaubt der verantwortliche Microsoft-Forscher Xiaodong He.
Für ihn ist die Neuentwicklung "ein Meilenstein auf dem Weg hin zu einer generellen, menschenähnlichen Künstlichen Intelligenz, die menschliche Fähigkeiten erweitert".
"Wenn KI und Menschen in der gleichen Welt existieren, müssen sie miteinander interagieren können", sagt He. Ein gemeinsames Verständnis für Sprache und Sicht seien die wichtigsten Faktoren dafür.