RunwayML: Neue Video-KI-Funktionen und ein "generelles Weltmodell"

Das Video-KI-Start-up RunwayML stellt zwei neue Funktionen für seinen Videogenerator vor. Mit dem Langzeitforschungsprojekt zu Weltmodellen setzt es sich zudem höhere Ziele.

Mit "Text-to-Speech" implementiert RunwayML synthetische Stimmen in den Videoeditor. Das Unternehmen stellt verschiedene Stimmen zur Auswahl, die bestimmten Merkmalen wie jung, reif, weiblich, männlich usw. folgen. Diese Funktion ist für alle Layouts verfügbar.

Video: RunwayML via X

Neu ist auch die Funktion "Ratio", mit der ein generiertes Video mit einem Klick in verschiedene Formate wie 1:1 oder 16:9 umgewandelt werden kann. Dies erleichtert die Erstellung von Videos für verschiedene Kanäle.

Video: RunwayML via X

Allgemeine Weltmodelle für bessere Videos - und mehr?

Außerdem kündigt Runway eine neue Forschungsinitiative an: Das Unternehmen will sogenannte "World Models" entwickeln. Diese sollen Künstliche Intelligenz durch Systeme vorantreiben, die die visuelle Welt verstehen und simulieren können.

Ein "World Model" ist ein KI-System, das eine interne Repräsentation einer Umgebung entwickelt, um zukünftige Ereignisse in dieser Umgebung zu simulieren. Ziel eines GWM ist es, eine Vielzahl realer Situationen und Interaktionen abzubilden und zu simulieren.

Als Beispiel für ein solches Modell nennt Runway GAIA-1 von Wayve, das aus visuellen und textuellen Daten entwickelt wurde, um autonome Fahrzeuge basierend auf einem Verständnis der Umgebung zu steuern. Dieses Szenario ist jedoch begrenzt und kontrolliert.

Ein Videomodell wie Gen-2 könne als "sehr frühes und begrenztes" Weltmodell betrachtet werden, da es ein grundlegendes Verständnis von Physik und Bewegung für die Videogenerierung entwickelt habe. Es sei jedoch in seinen Fähigkeiten noch eingeschränkt und habe Probleme mit komplexen Kamera- oder Objektbewegungen, schreibt die Firma.

Empfehlung

KI in der Praxis

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Video: Runway ML

RunwayML beschäftigt sich derzeit mit verschiedenen Forschungsherausforderungen, darunter die Entwicklung von Modellen, die konsistente Umgebungskarten und realistische Modelle menschlichen Verhaltens erstellen können.

Auch Metas KI-Forschungschef Yann LeCun geht davon aus, dass KI zunächst ein Weltmodell und ein grundlegendes Verständnis der Welt benötigt, um signifikante Fortschritte zu erzielen. Sprache, wie in den heutigen Large Language Models, reiche als Wissensbasis nicht aus. In eine ähnliche Richtung geht das Forschungsprojekt RunwayML, das auf multimodalem Training basiert, also auf Text-, Audio-, Bild-, Videodaten und mehr.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

RunwayML: Neue Video-KI-Funktionen und ein "generelles Weltmodell"

Allgemeine Weltmodelle für bessere Videos - und mehr?

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

KI-Start-up RunwayML stellt neues Videomodell Gen-4 vor

Runway Frames: Neues Bildmodell bringt viele frische Looks für Gen-3 Alpha

Video-KI-Startup RunwayML kann mit "Expand" Videos auf neue Seitenverhältnisse erweitern

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

RunwayML: Neue Video-KI-Funktionen und ein "generelles Weltmodell"

Allgemeine Weltmodelle für bessere Videos - und mehr?

Artikel teilen

Bankverbindung