Text zu HD-Video: Google verschmilzt Phenaki und Imagen Video

In den letzten Wochen stellte Google zwei Text-zu-Video-Modelle vor, die es jetzt in einem neuen Ansatz kombiniert. Das Ergebnis sind hochauflösende, längere Videos, die rein aus Text generiert werden.

Zunächst zeigte Google Imagen Video, ein auf der Bild-KI Imagen basierendes Text-zu-Video-System, das anhand von Texteingaben kurze Clips produzieren kann. Auch hier ist das Sprachverständnis eines großen Sprachmodells (T5-XXL) grundlegend für die Bildgenerierung. Imagen Video wurde gleichzeitig mit Bildern und Videos trainiert.

Fast zeitgleich zeigte ein weiteres Google-Team die Text-zu-Video-KI Phenaki, die ebenfalls mit Videos und Bildern trainiert ist. Sie kann anhand aufeinander aufbauender Prompts minutenlange Videos generieren. Das Phenaki-Team verwendet dafür eine Transformer-Architektur mit zeitabhängiger kausaler Aufmerksamkeit, die entlang einer in einem Prompt beschriebenen zeitlichen Reihenfolge Ereignisse aneinanderreihen kann.

Phenaki und Imagen Video generieren gemeinsam lange HD-Videos

Bereits bei der Vorstellung von Phenaki gab Googles Forschungsteam den Ausblick auf eine mögliche Verschmelzung der Systeme. Das ist jetzt passiert und Google stellt Ergebnis im Rahmen einer Präsentation aktueller KI-Projekte vor.

Zunächst generiert Phenaki ein zusammenhängendes Video auf Basis aufeinander aufbauender Prompts. Imagen nimmt die Ausgabe von Phenaki auf (Prompt und Video) und führt laut Google eine "räumliche Superauflösung" durch. Im Vergleich zu anderen Super-Resolution-Systemen sei es eine besondere Stärke von Imagen Video, Text in das Super-Resolution-Modul einzubinden.

Eine Präsentation der Kombination aus Phenaki und Imagen Video gibt es im folgenden Video ab Minute 28:25.

Die Technologie steckt laut Google noch in den Anfängen. Erste Text-zu-Bild-Systeme von Google sollen demnächst in der Test-App AI Kitchen (Android / iOS) verfügbar sein.

Mit der Bild-KI Imagen stellte Google kürzlich das wohl leistungsfähigste Modell dieser Art vor, veröffentlichte es aber bislang nicht, primär aus ethischen Gründen. Mit dem Rollout in die Test-Kitchen-App könnte sich hier ein Strategiewechsel andeuten, der angesichts der Erfolge von DALL-E 2, Midjourney und Stable Diffusion aus wirtschaftlicher Perspektive Sinn ergeben würde.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Text zu HD-Video: Google verschmilzt Phenaki und Imagen Video

Phenaki und Imagen Video generieren gemeinsam lange HD-Videos

Meta bietet Apple-KI-Spitzenkraft Gehaltspaket über mehr als 200 Millionen US-Dollar

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Schon wieder Signal: Unbekannte imitieren mit KI-Stimme US-Außenminister Rubio in Chats

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Text zu HD-Video: Google verschmilzt Phenaki und Imagen Video

Phenaki und Imagen Video generieren gemeinsam lange HD-Videos

Meta bietet Apple-KI-Spitzenkraft Gehaltspaket über mehr als 200 Millionen US-Dollar

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Schon wieder Signal: Unbekannte imitieren mit KI-Stimme US-Außenminister Rubio in Chats