Inhalt
summary Zusammenfassung

In den letzten Wochen stellte Google zwei Text-zu-Video-Modelle vor, die es jetzt in einem neuen Ansatz kombiniert. Das Ergebnis sind hochauflösende, längere Videos, die rein aus Text generiert werden.

Zunächst zeigte Google Imagen Video, ein auf der Bild-KI Imagen basierendes Text-zu-Video-System, das anhand von Texteingaben kurze Clips produzieren kann. Auch hier ist das Sprachverständnis eines großen Sprachmodells (T5-XXL) grundlegend für die Bildgenerierung. Imagen Video wurde gleichzeitig mit Bildern und Videos trainiert.

Fast zeitgleich zeigte ein weiteres Google-Team die Text-zu-Video-KI Phenaki, die ebenfalls mit Videos und Bildern trainiert ist. Sie kann anhand aufeinander aufbauender Prompts minutenlange Videos generieren. Das Phenaki-Team verwendet dafür eine Transformer-Architektur mit zeitabhängiger kausaler Aufmerksamkeit, die entlang einer in einem Prompt beschriebenen zeitlichen Reihenfolge Ereignisse aneinanderreihen kann.

Phenaki und Imagen Video generieren gemeinsam lange HD-Videos

Bereits bei der Vorstellung von Phenaki gab Googles Forschungsteam den Ausblick auf eine mögliche Verschmelzung der Systeme. Das ist jetzt passiert und Google stellt Ergebnis im Rahmen einer Präsentation aktueller KI-Projekte vor.

Anzeige
Anzeige

Zunächst generiert Phenaki ein zusammenhängendes Video auf Basis aufeinander aufbauender Prompts. Imagen nimmt die Ausgabe von Phenaki auf (Prompt und Video) und führt laut Google eine "räumliche Superauflösung" durch. Im Vergleich zu anderen Super-Resolution-Systemen sei es eine besondere Stärke von Imagen Video, Text in das Super-Resolution-Modul einzubinden.

Eine Präsentation der Kombination aus Phenaki und Imagen Video gibt es im folgenden Video ab Minute 28:25.

Die Technologie steckt laut Google noch in den Anfängen. Erste Text-zu-Bild-Systeme von Google sollen demnächst in der Test-App AI Kitchen (Android / iOS) verfügbar sein.

Mit der Bild-KI Imagen stellte Google kürzlich das wohl leistungsfähigste Modell dieser Art vor, veröffentlichte es aber bislang nicht, primär aus ethischen Gründen. Mit dem Rollout in die Test-Kitchen-App könnte sich hier ein Strategiewechsel andeuten, der angesichts der Erfolge von DALL-E 2, Midjourney und Stable Diffusion aus wirtschaftlicher Perspektive Sinn ergeben würde.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google erzielt den nächsten Meilenstein bei der KI-Generierung von Videos rein aus Text.
  • Dafür verbindet Google zwei zuvor vorgestellte Text-zu-Video-Systeme: Imagen Video kann hochauflösende Videos generieren, Phenaki über die Zeit konsistente Bildabfolgen entlang aufeinander aufbauender Prompts.
  • In einer neuen Demo zeigt Google die Kombination aus Phenaki und Imagen Video, die in hochauflösenden, langen und dabei konsistenten HD-Videos resultiert.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!