Mit Stable Diffusion verleiht Stability seinen Bildmodellen Animationsfähigkeit. Das Video-Tool ist allerdings nur über eine kostenpflichtige Schnittstelle verfügbar.
Stability AI hat ein Entwicklungskit für Stable Animation angekündigt, eine neue Art, bewegte Bilder zu erstellen. Das Modell akzeptiert die Eingabe von Ideen auf drei verschiedenen Wegen:
- klassisch per Textprompt wie bei Stable Diffusion, Midjourney oder DALL-E 2
- mit Textprompt und Bild, das als Ausgangspunkt für die Animation dient
- mit Textprompt und Video
Die Software scheint sich noch in einem experimentellen Stadium zu befinden, denn anstatt sie über eine ihrer Plattformen wie DreamStudio oder ClipDrop endverbraucherfreundlich über den Browser anzubieten, gibt es bisher nur ein Software Development Kit (SDK) und eine kostenpflichtige API. Dies hindert Dritte natürlich nicht daran, das Animationsmodell über einen eigenen Dienst zu vermarkten.
Nutzung nur per Python-Script
Entsprechend kompliziert gestaltet sich zunächst auch die Bedienung, da die Videos über ein Python-Skript erzeugt werden müssen. Hier können ähnlich wie beim Bildmodell zahlreiche Parameter wie Steps, Sampler, Guidance Scale oder Seed eingestellt werden. Zusätzlich stehen Features wie Outpainting oder Prompt Interpolation zur Verfügung.
Da verschiedene Parameter den Preis zusätzlich beeinflussen, kann die Frage, wie viel die Erstellung eines Videos kostet, nicht pauschal beantwortet werden. Stability gibt Kosten zwischen 3 und 18 US-Cent pro 100 Frames in verschiedenen Einstellungen an.
Verknüpfung mit Stable Diffusion XL möglich
Stable Animation kann auch mit allen Versionen von Stable Diffusion verknüpft werden. Standardmäßig ist die Version 1.5 eingestellt, optional läuft aber auch das noch recht neue und deutlich verbesserte Stable Diffusion XL. Zusätzlich stehen zahlreiche Style Presets von Anime über Comic Book, Low Poly bis zu Pixelart zur Verfügung.
Die Auflösung beträgt ohne Anpassung 512 x 512 Pixel und kann auf bis zu 1.024 x 1.024 Pixel erhöht werden. Zusätzlich kann ein Upscaler eingesetzt werden. Standard sind 72 Bilder bei 12 Bildern pro Sekunde, die aber laut Dokumentation anscheinend ins Unendliche getrieben werden können.
Es existieren bereits auf Stable Diffusion basierende Animationsprogramme, die beispielsweise über Prompt Interpolation, also die kontinuierliche Veränderung bestimmter Eigenschaften der Eingabe, eine kurze Bewegtbildsequenz erzeugen können.
Nach der Demonstration von Stability AI zu urteilen, verspricht Stable Animation eine deutlich umfassendere und ausgereiftere Lösung zu sein. Auch wenn damit in absehbarer Zeit noch keine Kinofilme auf Knopfdruck produziert werden können, zeigen Projekte wie dieses zusammen mit den Fortschritten von Runway ML, wohin sich die visuelle generative KI in naher Zukunft entwickeln könnte.