ByteDance gibt KI-Videomodellen ein Gedächtnis für längere Geschichten

3. Januar 2026

ByteDance

Kurz & Knapp

Forscher von ByteDance und der Nanyang Technological University haben mit StoryMem ein System entwickelt, das KI-generierte Videos über mehrere Szenen hinweg konsistent hält.
Das System speichert Schlüsselbilder in einer Memory-Bank und nutzt sie dann als Referenz für neue Szenen.
In Tests schneidet StoryMem 28,7 Prozent besser ab als das Basismodell und 9,4 Prozent besser als der bisherige Stand der Technik.

Ein Team von ByteDance und der Nanyang Technological University hat ein System entwickelt, das KI-generierte Videos über mehrere Szenen hinweg konsistent hält. Der Ansatz speichert Schlüsselbilder aus bereits generierten Szenen und nutzt sie als Referenz für neue.

Aktuelle KI-Videomodelle wie Sora, Kling oder Veo liefern bei einzelnen Clips von wenigen Sekunden Länge mittlerweile beeindruckende Ergebnisse. Sollen jedoch mehrere Szenen zu einer zusammenhängenden Geschichte verbunden werden, zeigt sich ein grundlegendes Problem. Charaktere verändern ihr Aussehen von Szene zu Szene, Umgebungen wirken inkonsistent, visuelle Details wandern.

Bisherige Lösungsversuche stoßen laut den Forschern auf ein Dilemma. Wer alle Szenen gemeinsam in einem Modell verarbeitet, kämpft mit explodierenden Rechenkosten. Wer jede Szene einzeln generiert und anschließend zusammenfügt, verliert die Konsistenz zwischen den Abschnitten.

Das nun vorgestellte System StoryMem wählt einen dritten Weg. Es speichert während der Generierung ausgewählte Schlüsselbilder in einer Memory-Bank und greift bei jeder neuen Szene auf diese zurück. Dadurch soll das Modell wissen, wie ein Charakter oder eine Umgebung in vorherigen Szenen aussah.

Vier Filmstreifen mit Szenen aus Prinzenmärchen, Roboterabenteuer, Meerjungfrauenstory und Robinson Crusoe. — Vier Filmstreifen zeigen vier unterschiedliche Erzählungen mit einheitlichem Look und stabiler Charakterdarstellung über mehrere Szenen. | Bild: Bytedance

Gezielte Auswahl statt Vollspeicherung

Die Forscher setzen dabei nicht auf eine vollständige Speicherung aller generierten Frames. Stattdessen wählt ein Algorithmus gezielt Bilder aus, die visuell bedeutsam sind. Die Auswahl erfolgt über eine Analyse der Bildinhalte, die semantisch unterschiedliche Frames identifiziert. Ein zweiter Filter prüft die technische Qualität und sortiert unscharfe oder verrauschte Bilder aus.

Die Memory-Bank arbeitet mit einem hybriden System. Frühe Schlüsselbilder bleiben als langfristige Referenz erhalten, während neuere Bilder in einem gleitenden Fenster rotieren. So bleibt die Speichergröße begrenzt, ohne dass wichtige visuelle Informationen aus dem Anfang der Geschichte verloren gehen.

Blockdiagramm der StoryMem-Architektur mit Memory-Bank, 3D-VAE-Encoder/Decoder, LoRA-Video DiT und semantischer Keyframe-Auswahl für kohärente Multi-Shot-Videos. — Die Übersicht zeigt, wie StoryMem zentrale Schlüsselbilder speichert und für jede neue Szene nutzt, um durchgehende Konsistenz von Figuren und Hintergründen zu gewährleisten. | Bild: Bytedance

Bei der Generierung einer neuen Szene werden die gespeicherten Bilder zusammen mit dem aktuell entstehenden Video in das Modell eingespeist. Eine spezielle Positionskodierung namens RoPE (Rotary Position Embedding) sorgt dafür, dass das Modell die Memory-Frames als zeitlich vorausgehende Ereignisse interpretiert. Die Forscher weisen den gespeicherten Bildern dabei negative Zeitindizes zu, sodass sie vom Modell als Vergangenheit behandelt werden.

Training auf kurzen Clips genügt

Ein praktischer Vorteil des Ansatzes liegt im Trainingsaufwand. Konkurrierende Methoden erfordern aufwendiges Training auf langen, zusammenhängenden Videosequenzen, die in hoher Qualität kaum verfügbar sind. StoryMem kommt mit einer LoRA-Anpassung (Low-Rank Adaptation) des bestehenden Open-Source-Modells Wan2.2-I2V von Alibaba aus.

Das Team trainierte auf 400.000 kurzen Einzelclips von jeweils fünf Sekunden Länge. Die Clips wurden nach visueller Ähnlichkeit gruppiert, sodass das Modell lernte, aus verwandten Bildern konsistente Fortsetzungen zu generieren. Die Erweiterung fügt dem 14-Milliarden-Parameter-Modell lediglich etwa 0,7 Milliarden zusätzliche Parameter hinzu.

ünf Methoden im Vergleich, StoryMem-Reihe zeigt durchgehend konsistente Figur und klare Umgebungen. — Im Straßenmusiker-Beispiel bleibt StoryMem über alle fünf Szenen hinweg konstant in Figur und Umfeld, während andere Methoden inkonsistente Ergebnisse liefern. | Bild: Bytedance

Deutliche Verbesserungen in Tests

Zur Evaluation entwickelten die Forscher einen eigenen Benchmark namens ST-Bench. Er umfasst 30 Geschichten mit insgesamt 300 detaillierten Szenenanweisungen und deckt verschiedene Stile ab, von realistischen Szenarien bis zu Märchen.

Die Ergebnisse zeigen laut der Studie deutliche Verbesserungen bei der Konsistenz zwischen Szenen. StoryMem schneidet 28,7 Prozent besser ab als das unveränderte Basismodell und 9,4 Prozent besser als HoloCine, das die Forscher als bisherigen "State of the Art" bezeichnen. Gleichzeitig erreicht StoryMem den höchsten Ästhetik-Score unter allen getesteten Methoden, die auf Konsistenz optimiert sind.

Eine Nutzerstudie bestätigt die quantitativen Ergebnisse. Hier haben die Probanden die Ergebnisse von StoryMem in den meisten Bewertungsdimensionen gegenüber allen Baselines bevorzugt.

Method	Aesthetic Quality↑	Prompt Following↑		Cross-shot-Consistency↑
		Global	Single-shot	Overall	Top-10-Pairs
Wan2.2-T2V	0,6452	0,2174	0,2452	0,3937	0,4248
StoryDiffusion + Wan2.2-I2V	0,6085	0,2288	0,2349	0,4600	0,4732
IC-LoRA + Wan2.2-I2V	0,5704	0,2131	0,2181	0,4110	0,4296
HoloCine	0,5653	0,2199	0,2125	0,4628	0,5005
Ours	0,6133	0,2289	0,2313	0,5065	0,5337

Das Framework ermöglicht zwei zusätzliche Anwendungsfälle. Nutzer können eigene Referenzbilder als Startpunkt der Memory-Bank einspeisen, etwa Fotos von Personen oder Orten. Das System generiert dann eine Geschichte, in der diese Elemente durchgehend auftauchen. Zudem lassen sich natürlichere Übergänge zwischen Szenen erzielen. Wenn kein harter Schnitt gewünscht ist, verwendet das System den letzten Frame einer Szene als ersten Frame der nächsten.

Grenzen bei komplexen Szenen

Die Forscher benennen einige Einschränkungen. Bei Szenen mit vielen verschiedenen Charakteren stößt das System an Grenzen. Die Memory-Bank speichert Bilder ohne Zuordnung zu einzelnen Figuren. Wenn in einer Szene ein neuer Charakter auftaucht, kann es passieren, dass das Modell visuelle Eigenschaften falsch zuordnet.

Als Abhilfe empfehlen die Forscher, Charaktere in jedem Prompt explizit zu beschreiben. Außerdem können Übergänge zwischen Szenen mit stark unterschiedlichen Bewegungsgeschwindigkeiten unnatürlich wirken, da die Frame-Verbindung keine Geschwindigkeitsinformation überträgt.

Die Projektseite mit weiteren Beispielen ist bereits verfügbar. ST-Bench soll als Benchmark für weitere Forschung veröffentlicht werden. Die Gewichte haben die Forscher auf Hugging Face veröffentlicht.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Github | Paper