Text zu HD-Video: Google verschmilzt Phenaki und Imagen Video
Kurz & Knapp
- Google erzielt den nächsten Meilenstein bei der KI-Generierung von Videos rein aus Text.
- Dafür verbindet Google zwei zuvor vorgestellte Text-zu-Video-Systeme: Imagen Video kann hochauflösende Videos generieren, Phenaki über die Zeit konsistente Bildabfolgen entlang aufeinander aufbauender Prompts.
- In einer neuen Demo zeigt Google die Kombination aus Phenaki und Imagen Video, die in hochauflösenden, langen und dabei konsistenten HD-Videos resultiert.
In den letzten Wochen stellte Google zwei Text-zu-Video-Modelle vor, die es jetzt in einem neuen Ansatz kombiniert. Das Ergebnis sind hochauflösende, längere Videos, die rein aus Text generiert werden.
Zunächst zeigte Google Imagen Video, ein auf der Bild-KI Imagen basierendes Text-zu-Video-System, das anhand von Texteingaben kurze Clips produzieren kann. Auch hier ist das Sprachverständnis eines großen Sprachmodells (T5-XXL) grundlegend für die Bildgenerierung. Imagen Video wurde gleichzeitig mit Bildern und Videos trainiert.
Fast zeitgleich zeigte ein weiteres Google-Team die Text-zu-Video-KI Phenaki, die ebenfalls mit Videos und Bildern trainiert ist. Sie kann anhand aufeinander aufbauender Prompts minutenlange Videos generieren. Das Phenaki-Team verwendet dafür eine Transformer-Architektur mit zeitabhängiger kausaler Aufmerksamkeit, die entlang einer in einem Prompt beschriebenen zeitlichen Reihenfolge Ereignisse aneinanderreihen kann.
Phenaki und Imagen Video generieren gemeinsam lange HD-Videos
Bereits bei der Vorstellung von Phenaki gab Googles Forschungsteam den Ausblick auf eine mögliche Verschmelzung der Systeme. Das ist jetzt passiert und Google stellt Ergebnis im Rahmen einer Präsentation aktueller KI-Projekte vor.
Zunächst generiert Phenaki ein zusammenhängendes Video auf Basis aufeinander aufbauender Prompts. Imagen nimmt die Ausgabe von Phenaki auf (Prompt und Video) und führt laut Google eine "räumliche Superauflösung" durch. Im Vergleich zu anderen Super-Resolution-Systemen sei es eine besondere Stärke von Imagen Video, Text in das Super-Resolution-Modul einzubinden.
Eine Präsentation der Kombination aus Phenaki und Imagen Video gibt es im folgenden Video ab Minute 28:25.
Die Technologie steckt laut Google noch in den Anfängen. Erste Text-zu-Bild-Systeme von Google sollen demnächst in der Test-App AI Kitchen (Android / iOS) verfügbar sein.
Mit der Bild-KI Imagen stellte Google kürzlich das wohl leistungsfähigste Modell dieser Art vor, veröffentlichte es aber bislang nicht, primär aus ethischen Gründen. Mit dem Rollout in die Test-Kitchen-App könnte sich hier ein Strategiewechsel andeuten, der angesichts der Erfolge von DALL-E 2, Midjourney und Stable Diffusion aus wirtschaftlicher Perspektive Sinn ergeben würde.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.