Kling AI Videogenerator 2.6 kann jetzt Stimmen und Bewegungen präzise steuern
Kurz & Knapp
- Kuaishou hat seinen KI-Videogenerator Kling 2.6 um natives Audio, Voice-Control und eine verbesserte Motion-Control erweitert.
- Nutzer können jetzt gesprochene Inhalte präzise steuern, eigene Stimmen hochladen und auf generierte Videos anwenden.
- Das Upgrade bei der Bewegungssteuerung ermöglicht detailliertere Ganzkörperbewegungen, laut Hersteller auch bei schnellen oder komplexen Aktionen wie Tanz oder Kampfkunst.
Das chinesische KI-Unternehmen Kuaishou hat seinen KI-Videogenerator Kling 2.6 um zwei Funktionen erweitert. Das Update bringt eine Voice-Steuerung für gesprochene Inhalte sowie ein aufgewertetes Motion Control für präzisere Bewegungssteuerung.
Die neue Stimmkontrolle setzt auf der mit Kling 2.6 kürzlich eingeführten synchronen Video-Audio-Generierung auf. Hierbei kann das Modell ähnlich wie Googles Veo 3 oder Sora 2 zum Videoinhalt passende Soundeffekte inklusive Stimmen und Musik ausgeben.
Die Funktion unterstützt laut Kling AI verschiedene Formen menschlicher Stimmen: Sprechen, Dialoge, Erzählungen, Gesang und Rap. Hinzu kommen Umgebungsgeräusche und zusammengesetzte Szenenklänge. Als Eingabe akzeptiert das Modell sowohl reine Textbeschreibungen als auch Kombinationen aus Text und Bild.
Kling AI listet zahlreiche Einsatzmöglichkeiten auf: Produktpräsentationen, Lifestyle-Vlogs, Nachrichtensendungen, Sportkommentare, Dokumentationen, Interview-Formate, dramatische Kurzfilme und Musikperformances wie Gesang oder sogar mehrstimmige Chöre.
Eigene Stimmen trainieren und anwenden
Die neue Voice-Control-Funktion erlaubt es Nutzern zusätzlich, eigene Stimmen hochzuladen und ein Modell damit zu trainieren. Alternativ können sie eine Audiodatei hochladen. Die trainierte oder hochgeladene Stimme lässt sich anschließend auf Text-zu-Video-Kreationen anwenden.
Das verbessert die Charakterkonsistenz: Figuren in generierten Videos können nun mit einer definierten, wiedererkennbaren Stimme sprechen. Das ermöglicht etwa durchgehend stimmige Charaktere über mehrere Videoclips hinweg.
Technische Details zur Funktionsweise von Kling 2.6 nennt Kling AI in der Ankündigung nicht. Ein User-Guide ist hier verfügbar.
Präzisere Kontrolle über Bewegungen
Das zweite zentrale Feature ist ein Upgrade der Motion-Control-Funktion. Laut Kling AI erfasst das System jetzt Ganzkörperbewegungen in größerem Detail. Auch schnelle und komplexe Aktionen wie Kampfkunst oder Tänze sollen besser verarbeitet werden.
Besonders betont das Unternehmen Verbesserungen bei zwei bekannten Problemzonen von KI-Videos: Handbewegungen sollen jetzt präzise und ohne Unschärfe dargestellt werden, Gesichtsausdrücke und Lippensynchronisation natürlich erhalten bleiben.
Nutzer können zudem Bewegungsreferenzen von 3 bis 30 Sekunden Länge hochladen, um ununterbrochene Sequenzen zu erstellen. Szenendetails lassen sich zusätzlich über Text-Prompts anpassen.
In sozialen Medien kursieren bereits spektakuläre Beispiele, die zeigen, dass sich die Menge an KI-generierten Videos weiter erhöhen dürfte, solange Plattform-Algorithmen auf schnelle Klicks optimiert sind und KI-Kreatoren diese niedrig hängenden Früchte leicht abgreifen können. Ebenso gibt es natürlich schon spektakulär kreative Einfälle.
Verfügbarkeit und Preise
Kling ist neben der hauseigenen Plattform auch über Drittanbieter wie Fal.ai, Artlist und Media.io verfügbar. Die Preise für die API-Nutzung bei diesen Anbietern liegen bei etwa 0,07 bis 0,14 US-Dollar pro Sekunde generiertem Video und sind damit sehr kompetitiv. Die Preise variieren je nach Geschwindigkeit der Generierung, Länge und Auflösung der Videos. KlingAI selbst arbeitet nur über ein Creditsystem.

Anfang Dezember stellte Kuaishou Video O1 vor, das laut dem Unternehmen als "weltweit erstes vereinheitlichtes multimodales Videomodell" Generierung und Bearbeitung in einem System bündelt. Video O1 kann bestehende Videos per Textbefehl bearbeiten, etwa Protagonisten, Wetter oder Videostil ändern.
Mit den neuen Funktionen für Kling 2.6 konkurriert Kuaishou in einem hart umkämpften Markt mit westlichen Anbietern wie Google, OpenAI und Runway sowie chinesischen Wettbewerbern wie Hailuo, Seedance oder Vidu.
Kuaishou betreibt mit Kwai eine der größten Kurzvideo-Plattformen weltweit, vergleichbar mit TikTok. Das Unternehmen dürfte damit über riesige Mengen an Video-Audio-Paaren und Bewegungsdaten verfügen, die sich direkt für das Training von Videomodellen mit synchronem Ton und realistischen Bewegungsabläufen nutzen lassen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren