Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Das Video-KI-Start-up RunwayML stellt zwei neue Funktionen für seinen Videogenerator vor. Mit dem Langzeitforschungsprojekt zu Weltmodellen setzt es sich zudem höhere Ziele.

Mit "Text-to-Speech" implementiert RunwayML synthetische Stimmen in den Videoeditor. Das Unternehmen stellt verschiedene Stimmen zur Auswahl, die bestimmten Merkmalen wie jung, reif, weiblich, männlich usw. folgen. Diese Funktion ist für alle Layouts verfügbar.

Video: RunwayML via X

Neu ist auch die Funktion "Ratio", mit der ein generiertes Video mit einem Klick in verschiedene Formate wie 1:1 oder 16:9 umgewandelt werden kann. Dies erleichtert die Erstellung von Videos für verschiedene Kanäle.

Anzeige
Anzeige

Video: RunwayML via X

Allgemeine Weltmodelle für bessere Videos - und mehr?

Außerdem kündigt Runway eine neue Forschungsinitiative an: Das Unternehmen will sogenannte "World Models" entwickeln. Diese sollen Künstliche Intelligenz durch Systeme vorantreiben, die die visuelle Welt verstehen und simulieren können.

Ein "World Model" ist ein KI-System, das eine interne Repräsentation einer Umgebung entwickelt, um zukünftige Ereignisse in dieser Umgebung zu simulieren. Ziel eines GWM ist es, eine Vielzahl realer Situationen und Interaktionen abzubilden und zu simulieren.

Als Beispiel für ein solches Modell nennt Runway GAIA-1 von Wayve, das aus visuellen und textuellen Daten entwickelt wurde, um autonome Fahrzeuge basierend auf einem Verständnis der Umgebung zu steuern. Dieses Szenario ist jedoch begrenzt und kontrolliert.

Ein Videomodell wie Gen-2 könne als "sehr frühes und begrenztes" Weltmodell betrachtet werden, da es ein grundlegendes Verständnis von Physik und Bewegung für die Videogenerierung entwickelt habe. Es sei jedoch in seinen Fähigkeiten noch eingeschränkt und habe Probleme mit komplexen Kamera- oder Objektbewegungen, schreibt die Firma.

Empfehlung

Video: Runway ML

RunwayML beschäftigt sich derzeit mit verschiedenen Forschungsherausforderungen, darunter die Entwicklung von Modellen, die konsistente Umgebungskarten und realistische Modelle menschlichen Verhaltens erstellen können.

Auch Metas KI-Forschungschef Yann LeCun geht davon aus, dass KI zunächst ein Weltmodell und ein grundlegendes Verständnis der Welt benötigt, um signifikante Fortschritte zu erzielen. Sprache, wie in den heutigen Large Language Models, reiche als Wissensbasis nicht aus. In eine ähnliche Richtung geht das Forschungsprojekt RunwayML, das auf multimodalem Training basiert, also auf Text-, Audio-, Bild-, Videodaten und mehr.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das KI-Start-up RunwayML stellt zwei neue Funktionen für seinen Videogenerator vor: "Text-to-Speech" für synthetische Stimmen und "Ratio" für die einfache Konvertierung von Videoformaten.
  • RunwayML kündigt außerdem eine Forschungsinitiative an, um so genannte "Weltmodelle" zu entwickeln, die KI-Systeme vorantreiben, die die visuelle Welt verstehen und simulieren können.
  • Das Unternehmen befasst sich mit Forschungsherausforderungen wie der Entwicklung von Modellen, die konsistente Umgebungskarten und realistische Modelle menschlichen Verhaltens erstellen können.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!