Viel Leistung für "wenig" Geld: Open-Sora 2.0 könnte ein Deepseek-Moment für Video-KI sein

19. März 2025

HPC-AI Tech

Kurz & Knapp

Das Start-up HPC-AI Tech hat mit Open-Sora 2.0 ein KI-System zur Videogenerierung entwickelt, das mit geschätzten 200.000 US-Dollar nur etwa ein Zehntel der Trainingskosten vergleichbarer Systeme verursacht und dabei ähnliche Qualität wie kommerzielle Anbieter erreicht.
Die Kosteneinsparungen basieren auf einem dreistufigen Trainingsverfahren, vortrainierten Bildmodellen und einem neuen Video-Autoencoder.
In Benchmarks liegt Open-Sora 2.0 nur noch 0,69 Prozent hinter OpenAIs Sora, was eine deutliche Verbesserung gegenüber der Vorgängerversion darstellt. Das quelloffene System könnte ähnlich wie bei Sprachmodellen zu verstärktem Preisdruck im Bereich der KI-Videogenerierung führen.

Das Start-up HPC-AI Tech hat ein KI-System entwickelt, das qualitativ hochwertige Videos bei deutlich niedrigeren Trainingskosten erzeugen kann als aktuelle Alternativen.

Während Sprachmodelle bereits immer effizienter werden, beanspruchen Videomodelle weiterhin immense GPU-Ressourcen für ihr Training. Open-Sora 2.0 geht einen Kompromiss bei der Auflösung der generierten Clips ein, senkt die Kosten für das Training dadurch aber signifikant. Weitere Beispiele finden sich auf einer Projektseite.

Prompt: "Two women sit on a beige couch in a cozy, warmly lit room with a brick wall backdrop. They engage in a cheerful conversation, smiling and toasting red wine in an intimate medium shot." | Video: HPC-AI Tech

Prompt: "A group of anthropomorphic mushrooms having a disco party in the middle of a dark enchanted forest, with glowing neon lights and exaggerated dance moves, their smooth textures and reflective surfaces emphasizing a comical 3D look." | Video: HPC-AI Tech

Prompt: "A tomato surfing on a piece of lettuce down a waterfall of ranch dressing, with exaggerated surfing moves and creamy wave effects to highlight the 3D animated fun." | Video: HPC-AI Tech

Mit rund 200.000 US-Dollar benötigte Open-Sora 2.0 laut Paper nur etwa ein Zehntel der geschätzten Kosten vergleichbarer Systeme wie Movie Gen oder Step-Video-T2V. In Tests erreicht das Modell eine ähnliche Qualität wie etablierte, kommerzielle Systeme wie Runway Gen-3 Alpha oder HunyuanVideo. Zum Training verwendete HPC-AI Tech nach eigenen Angaben 224 Einheiten von Nvidias H200-GPUs.

Tabelle: Vergleich von Modell, Anzahl GPUs, GPU-Stunden und Kosten für eine Single Run für Videogestenerierungsmodelle MovieGen, Step-Video-T2V und Open Sora 2.0. — Open-Sora 2.0 Modell hat mit geschätzten $200k deutlich geringere Kosten als Movie Gen mit $2.5M und Step-Video-T2V mit $1M bei einem Trainingsdurchlauf verursacht. | Bild: HPC-AI Tech

Komprimierte Videos in deutlich weniger Zeit

Die geringe Kostenbasis basiert auf einem dreistufigen Trainingsverfahren: Zunächst lernt das System mit niedrig aufgelösten Videos, dann folgt die Spezialisierung auf Bild-zu-Video-Konvertierung. In der letzten Phase erfolgt eine Feinabstimmung für hochauflösende Ausgaben. Durch die Nutzung vortrainierter Bildmodelle wie Flux sparten die Entwickler:innen zusätzlich Rechenressourcen.

Eine wichtige technische Komponente ist der neue Video DC-AE Autoencoder zur Videokomprimierung. Das System erreicht höhere Kompressionsraten als bisherige Methoden und beschleunigt dadurch das Training um das 5,2-fache. Die Inferenzgeschwindigkeit verbessert sich den Forschenden zufolge um mehr als das Zehnfache.

Beispielvideoframes für generierte Videos mit zwei verschiedenen Autoencoder-Kompressionsraten: obere Reihe niedrige, untere Reihe hohe Kompressionsrate. — Während eine höhere Kompressionsrate zu etwas unschärferen Ausgaben führt, verbessert sie die Generierungsgeschwindigkeit erheblich. | Bild: HPC-AI Tech

Flexible Steuerung der Videogenerierung

Open-Sora 2.0 unterstützt die Generierung von Videos sowohl aus Textbeschreibungen als auch aus Einzelbildern. Ein spezieller Motion Score erlaubt in Open-Sora außerdem die gezielte Steuerung der Bewegungsintensität in den generierten Videos.

Bildsequenz: Auswirkung des Motion-Scores auf die Videogenerierung mittels KI, steigende Kamerabewegung und Dynamik bei höheren Werten. — Mit steigendem Motion-Score erhöht sich die Dynamik und Kamerabewegung in der generierten Szene deutlich. | Bild: HPC-AI Tech

Die höchste Auflösung ist mit 768x768 Pixeln jedoch eher niedrig und die maximale Länge von bis zu 128 Frames oder fünf Sekunden recht kurz. OpenAIs Sora, zu dem Open-Sora nur namentliche Ähnlichkeit aufweist, kann 20-sekündige Videos mit bis zu 1080p-Auflösung generieren.

Benchmarks untersuchten drei Aspekte: die visuelle Qualität, die Übereinstimmung mit dem Textprompt und die Bewegungsqualität. In allen Bereichen erreicht das System Werte auf dem Niveau führender kommerzieller Modelle.

Im VBench-Test liegt Open-Sora 2.0 nur noch 0,69 Prozent hinter OpenAIs Sora - eine deutliche Verbesserung gegenüber der Vorgängerversion mit 4,52 Prozent Rückstand. Wie immer gilt natürlich, dass Benchmarkleistung und reale Performance nicht immer oder nur eingeschränkt übereinstimmen.

Open-Sora 2.0 zeigt deutlich bessere Leistung als dessen Vorgänger und verkleinert die Lücke zu kommerziellen Systemen. | Bild: HPC-AI TechHPC-AI Tech hat das System auf GitHub als Open Source verfügbar gemacht. Allerdings bestehen weiterhin technische Herausforderungen: Die generierten Videos zeigen gelegentlich unerwünschte Artefakte, zudem entsprechen die Bewegungen nicht immer den physikalischen Gesetzen. Auch andere KI-Videomodelle haben diese Probleme.

Ist das der "Deepseek"-Moment für Video-KI?

Fast wöchentlich erscheinen derzeit maßgeblich von chinesischen Unternehmen neue, teilweise ebenfalls quelloffene KI-Modelle zur Videogenerierung wie Genmo Mochi 1 oder MiniMax Video-01, die in Benchmarks bestehende Lösungen zwar immer wieder um ein paar Prozentpunkte übertreffen, aber keine völlig neuen Maßstäbe in puncto Videoqualität setzen.

Open-Sora 2.0 scheint nun jedoch Parallelen zum "Deepseek-Moment" der Sprachmodelle aufzuweisen: Das System kann ähnliche Leistungen wie kommerzielle Anbieter erbringen, aber durch intelligente Trainingsmethoden die Kosten deutlich senken.

Das könnte auf lange Sicht auch im Videobereich zu stärkeren Preiskämpfen führen. Bislang ist die Nutzung etwa von Googles neustem Video-Modell per API aufgrund des großen Bedarfs an Rechenressourcen noch mit Kosten von 0,50 cent pro Sekunde verbunden.

Source: Arxiv GitHub

Verpassen Sie keine
aktuellen KI‑Einblicke.

Unabhängiger Journalismus, der Sie auf dem Laufenden hält.
Zugang zum Magazinarchiv und zu den Community‑Kommentaren.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren