KI-Forschung

Deepmind: Transframer-KI träumt 30-Sekunden-Video aus einem Bild

Maximilian Schreiner
Ein Roboter sitzt an einem Schreibtisch und bearbeitet ein Video.

DALL-E 2 prompted by MIXED

Deepminds neue Video-KI Transframer kann eine ganze Reihe von Bild- und Videoaufgaben erledigen - und aus einem einzelnen Bild 30 Sekunden lange Videos träumen.

Generative KI-Systeme sind in den letzten Jahren aus den Forschungslaboren in die industrielle und private Anwendung gelangt, den Startschuss gab OpenAIs großes Sprachmodell GPT-3. Das Unternehmen zeigte dann im April das Bild-System DALL-E 2 und brachte so indirekt Alternativen wie Midjourney oder Stable Diffusion hervor.

Die Google-Schwester Deepmind zeigt nun mit Transframer ein KI-Modell, das einen Ausblick auf die nächste Generation generativer KI-Modelle bieten könnte.

Deepmind Transframer: Ein Modell mit vielen Aufgaben

Deepminds Transframer ist ein Framework für visuelle Vorhersagen, das gleich acht Bildmodellierungs und -verarbeitungsaufgaben lösen kann, etwa Tiefenschätzung, Instanzsegmentierung, Objekterkennung oder Video-Vorhersagen.

Transframer greift dafür auf eine Reihe von Kontextbildern mit zugehörigen Annotationen wie Zeitmarken oder Kamerastandpunkte zurück und verarbeitet davon ausgehend die Abfrage für ein Bild.

Transframer bietet ein Framework für mehrere Bild-Aufgaben. | Bild: Deepmind

Das Modell verarbeitet komprimierte Bilder mit einem U-Net, dessen Outputs an einen DCTransfromer-Decoder weitergegeben werden. Konkret werden die Bilder per DCT (Diskrete Kosinustransformation) komprimiert, DCT wird auch im Kompressionsverfahren JPEG verwendet. Der DCTransformer ist auf DCT-Tokens spezialisiert.

Transframer generiert neue Blickwinkel und ganze Videos

Neben klassischen Bild-Aufgaben wie der Tiefenschätzung und Objekterkennung beherrscht Transframer auch die Synthese neuer Blickwinkel auf ein Objekt und die Vorhersage von Videoverläufen.

In einem kurzen Tweet zeigt Deepmind etwa sechs 30-Sekunden-Videos, die Transframer aus einem einzigen Input-Bild erträumt hat. Trotz der niedrigen Auflösung lässt sich eine gewisse Konsistenz erkennen.

Laut Deepmind zeigen die Ergebnisse, dass sich ein Framework wie Transframer für anspruchsvolle Bild- und Videomodellierungsaufgaben eigne. Transframer könne zudem als Multitasker Probleme der Bild- und Videoanalyse lösen, für die bisher spezialisierte Modelle eingesetzt werden, so die Forschenden.