Anzeige
Skip to content

Neues KI-Modell LPM 1.0 macht aus Text, Audio und Bild sprechende Echtzeit-Avatare

Image description
Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Forscher haben mit LPM 1.0 ein KI-Modell vorgestellt, das aus einem einzelnen Bild ein Echtzeit-Video einer sprechenden, zuhörenden oder singenden Figur erzeugt – inklusive lippensynchroner Sprache, feiner Mimik wie Zögern oder Blickwechsel und emotionaler Übergänge.
  • Das Modell lässt sich direkt an Sprach-KI wie ChatGPT anbinden und funktioniert mit verschiedenen Bildstilen, darunter fotorealistische Gesichter, Anime und 3D-Spielfiguren.
  • Die gesamte Videoerzeugung läuft als Streaming-Prozess in Echtzeit, Videos von bis zu 45 Minuten sollen stabil bleiben.

Forscher haben mit LPM 1.0 ein KI-Modell vorgestellt, das aus einem einzelnen Bild ein Echtzeit-Video einer sprechenden, zuhörenden oder singenden Figur erzeugt.

Das Modell verarbeitet Text, Audio und Referenzbilder gleichzeitig und erzeugt dabei lippensynchrone Sprache, feine Mimik wie Zögern oder Blickwechsel sowie emotionale Übergänge. Es lässt sich direkt an Sprach-Audio-KI-Modelle von ChatGPT oder Doubao anbinden, sodass ein visueller Gesprächspartner in Echtzeit entsteht.

LPM 1.0 funktioniert mit verschiedenen Bildstilen, darunter fotorealistische Gesichter, Anime und 3D-Spielfiguren, ohne zusätzliches Training. Die gesamte Videoerzeugung läuft als Streaming-Prozess in Echtzeit, statt ein fertiges Video am Stück zu berechnen. Videos von bis zu 45 Minuten sollen stabil bleiben.

Technisch setzt LPM 1.0 auf eine sogenannte mehrstufige Identitätskonditionierung: Das Modell erhält neben einem Hauptbild auch Referenzbilder aus verschiedenen Blickwinkeln und mit unterschiedlichen Gesichtsausdrücken. So muss es Details wie Zähne, Falten bei bestimmten Emotionen oder die Profilansicht nicht selbst erfinden, sondern kann sie aus den Vorlagen übernehmen.

Anzeige
DEC_D_Incontent-1

Das Modell kennt drei Gesprächszustände: Beim Zuhören erzeugt es reaktive Mimik wie Nicken oder Blickwechsel auf Basis des eingehenden Audios. Beim Sprechen steuert das Antwort-Audio die Lippenbewegungen und Körpersprache. In Gesprächspausen generiert LPM auf Basis von Textanweisungen ein natürliches Leerlaufverhalten.

Neben dem Echtzeit-Gespräch unterstützt LPM 1.0 laut Projektleiterin Ailing Zeng auch die Offline-Erzeugung von Videos aus vorhandenem Audio, etwa für Podcasts oder Filmdialoge, und kann daher auch für die Content-Erstellung abseits von Chats verwendet werden. Eine Steuerung durch Video als Eingabe sei in dieser Version noch nicht enthalten, aber innerhalb des Frameworks grundsätzlich möglich, so Zeng.

Vorerst nur ein Forschungsprojekt

Das Entwicklungsteam betont, dass es sich um ein reines Forschungsprojekt handelt. Gewichte, Code oder eine öffentliche Demo sollen nicht veröffentlicht werden. Alle gezeigten Gesichter seien KI-generiert, keine echten Personen. Die erzeugten Videos enthalten laut den Forschern noch erkennbare Artefakte, und eine quantitative Analyse bestätigte, dass ein Abstand zur Qualität echter Videos bestehe.

Die Forschenden betonen zudem, dass sie KI verantwortungsvoll entwickeln wollen und einen Zugang nur bei ausreichenden Schutzmaßnahmen und klaren Rahmenbedingungen prüfen würden. Weitere Details finden sich auf der Projektseite und im technischen Bericht.

Anzeige
DEC_D_Incontent-2

Auch wenn LPM 1.0 vorerst nur ein Forschungsprojekt ist, zeigt es, wohin die Entwicklung geht: KI-Systeme könnten bald nicht mehr nur als Text oder Stimme auftreten, sondern als visuell glaubhafte Figuren mit Mimik, Blickkontakt und emotionaler Reaktion. Das wäre nützlich für Bildung, Spiele, Kundenservice oder virtuelle Begleiter.

Gleichzeitig birgt die Technik Risiken, denn sie kommt einer Echtzeit-Deepfake-Infrastruktur sehr nahe und könnte für Betrug, Manipulation oder die gezielte Nachahmung realer Personen missbraucht werden. All diese Dinge passieren bereits; was kontinuierlich sinkt, ist die Einstiegshürde. Die Forschenden betonen ausdrücklich, dass das System nicht zur Irreführung, Täuschung oder Nachahmung realer Personen gedacht ist.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Project page