Microsoft: Neue KI generiert Videos

KI-Forschende von Microsoft zeigen NÜWA, ein KI-Tausendsassa der Bildmanipulation, der mit OpenAIs DALL-E mithalten kann. Besonders beeindruckend ist die Generierung kurzer Videos anhand von Textbeschreibungen.

Anfang des Jahres zeigte OpenAI DALL-E, ein multimodales KI-Modell, das aus Textbeschreibungen Bilder generiert. In Kombination mit dem ebenfalls vorgestellten CLIP, das als Qualitätsfilter dient, entstanden so Originalbilder von teils beeindruckender Qualität und Kreativität – Avocado-Stühle oder Pinguine aus Knoblauch seien an dieser Stelle genannt.

Die angesprochene Multimodalität ist die Besonderheit an DALL-E: Die KI wurde mit Bildern und Texten trainiert. Diese Verknüpfung von Bild und Text verhilft ihr zu einem besseren Verständnis von Motiven und so letztlich zu hochwertigeren Ergebnissen.

Ein neues KI-System von Microsoft geht jetzt einen Schritt weiter: NÜWA wurde neben Texten und Bildern auch mit Videos trainiert.

NÜWA macht aus Texten Bilder und Videos

Das KI-System trägt den Namen der Schöpfergöttin Nüwa aus der frühchinesischen Mythologie. Ganz so mächtig ist die Künstliche Intelligenz zwar nicht, doch die Forschenden zeigen, dass das umfassende Training mit Text, Bild und Video ein leistungsfähiges KI-Modell geschaffen hat.

Für die Architektur setzt das Team auf eine Reihe verschiedener Encoder, die auf die jeweiligen Dimensionen der Inputs zugeschnitten sind und diese in Tokens verwandeln. Die einzelnen Tokens werden anschließend von Transformer-Modulen verarbeitet und vom Decoder in Bildausgaben verwandelt.

Besonders beeindruckend ist, dass NÜWA anhand von Textbeschreibungen kurze Videos generieren kann. | Video: Microsoft

Microsofts Forschende trainierten NÜWA für Text-zu-Bild-Generierung, Video-Vervollständigung und Text-zu-Video-Generierung mit 2,9 Millionen Text-Bild-Paaren, knapp 720000 Videos und etwa 240000 Text-Video-Paaren. Das finale KI-Modell hat eine Größe von 870 Millionen Parametern. Das KI-Training auf 64 Nvidia A100 GPUs dauerte rund zwei Wochen.

NÜWA schlägt bisherige KI-Modelle

Nach diesem umfassenden multimodalen Training kann NÜWA Bilder und Videos aus Textbeschreibungen generieren und vorhandene Videos allein anhand von Texteingaben fortführen.

Empfehlung

KI in der Praxis

OpenAIs neues KI-Modell "Orion" zeigt angeblich kaum Verbesserungen gegenüber GPT-4

Bei der Fortführung von Videos lässt NÜWA eine gezielte Steuerung per Texteingabe zu. | Video: Microsoft, Wu et al.

Die Qualität der generierten Bilder und Videos übertrifft häufig bisherige KI-Modelle inklusive der aktuell verfügbaren DALL-E-Versionen. Bildfehler oder unsinnige Details treten jedoch auch bei NÜWA noch auf.

NÜWA erzeugt in vielen Fällen deutlich glaubwürdigere Ergebnisse als bisherige KI-Methoden. | Bild: Microsoft, Wu et al.

Die Forschenden trainierten NÜWA zusätzlich auf weitere Bildaufgaben und konnten zeigen, dass ihr Modell bessere Ergebnisse liefert als spezialisierte Modelle. Zu diesen Aufgaben gehören Sketch-zu-Bild, Sketch-zu-Video und Bildergänzung.

Mit KI-Nachtraining kann NÜWA zahlreiche weitere, speziellere Bildaufgaben durchführen und das auf einem höheren Niveau als existierende spezialisierte Systeme. | Bild: Microsoft, Wu et al.

Das Entwicklungsteam bezeichnet NÜWA als den ersten Schritt zum Aufbau einer KI-Plattform, "welche die Schaffung visueller Welten ermöglicht und Content-Creator unterstützt". Ob der Code veröffentlicht wird, ist nicht bekannt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mehr Bild- und Videobeispiele gibt es im Github des NÜWA-Projekts.

Microsoft: Neue KI generiert Videos - nur aus Text

NÜWA macht aus Texten Bilder und Videos

NÜWA schlägt bisherige KI-Modelle

OpenAIs neues KI-Modell "Orion" zeigt angeblich kaum Verbesserungen gegenüber GPT-4

Weiterlesen über Künstliche Intelligenz:

Inworld AI: Mehr KI-Gehirn fürs Metaverse

Klein wie ein Salzkorn: KI ermöglicht Mini-Kamera

Xenobots: "Programmierbare Organismen" vermehren sich eigenständig

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Microsoft: Neue KI generiert Videos - nur aus Text

NÜWA macht aus Texten Bilder und Videos

NÜWA schlägt bisherige KI-Modelle

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung