Münchner Studio sieht Filmbranche durch neue KI-Tools im Wandel
Kurz & Knapp
- Storybook Studios in München setzt gezielt KI-Technologien ein, um unabhängig von hohen Budgets hochwertige Filmproduktionen zu ermöglichen und damit deutschen Filmschaffenden neue kreative Freiheiten zu eröffnen.
- Der Produktionsprozess basiert auf flexiblen Workflows, die verschiedene KI-Tools wie Comfy, Runway ML und Google Veo kombinieren und sowohl Text-to-Video- als auch Animationslösungen mit Motion-Capture-Elementen integrieren.
- Zu den größten Herausforderungen zählen die kreative Kontrolle, Konsistenz zwischen Szenen und Figuren sowie die Bildqualität, während die Produktionskosten deutlich unter denen klassischer Filmprojekte liegen und neue Chancen für vielfältige Talente entstehen.
Im April 2025 sprach The Decoder mit Tobias M. Huber und Franziska Hansel von Storybook Studios in München. Huber ist Director of Operations und kommt aus der klassischen Filmproduktion – er hat Kinofilme produziert und Stoffe für Netflix, Amazon und Kino-Distributoren entwickelt. Hansel ist Senior Project & Communications Manager AI Media sowie Ethics & Bias Officer. Gemeinsam arbeiten sie daran, Storytelling mit KI-Technologien neu zu definieren.
Tobias M. Huber: Ende 2022 wurde mir klar, dass KI die Zukunft des Filmemachens radikal verändern wird. Zusammen mit unserem Founder Dan Maag und den Kollegen Franziska und Albert Bozesan haben wir dann Storybook Studios gegründet.
Wir sind wahrscheinlich die Ersten weltweit aus der klassischen Kinobranche, die sich 100% auf KI einlassen. Die meisten Content-Produzenten, die mit KI arbeiten, kommen aus dem technischen Bereich oder sind Werbefilmer und Musikvideoproduzenten. Unser Anspruch war von Anfang an klar: Die besten Geschichten mit allen verfügbaren KI-Technologien zu erzählen. Deswegen heißen wir auch Storybook Studios – Storytelling ist unser Fokus.
Warum KI für deutsches Storytelling?
The Decoder: Warum ist KI die beste Möglichkeit für euer Storytelling?
Tobias M. Huber: Wir haben eine massive Budgetdisparität zwischen Deutschland und den USA. In den 20er Jahren waren Deutschland, Europa und USA noch gleichauf, was Produktionsqualität angeht. Heute lohnt sich deutsche Filmproduktion für Produzenten eigentlich nur durch stark subventionierte Förderungen, die der Steuerzahler bezahlt. Trotzdem ist die öffentliche Meinung: Deutsche Filme sind grundsätzlich ziemlich schlecht.
Die Budgets für Action, Thriller, Fantasy oder Sci-Fi – alles was im Genre-Bereich liegt – haben wir einfach nicht. KI ist ein "Leveling the playing field". Plötzlich können wir aus Deutschland heraus Bilderwelten erschaffen und Geschichten erzählen, die bisher unmöglich waren. Die Tatsache, dass es jetzt schon viele Leute aus Deutschland und Europa gibt, die großartige Geschichten erzählen, die gleichauf sind mit Hollywood, beweist: Diese neuen Möglichkeiten erschaffen eine Freiheit, die die Filmbranche komplett umgestalten könnte.
Die technische Realität: Kein typischer Workflow

The Decoder: Wie sieht ein typischer Workflow bei euch aus? Wie kommt ihr von der Idee zum fertigen Film?
Tobias M. Huber: Es gibt keinen typischen Workflow. Jedes Projekt hat einen komplett anderen Workflow. Wir erarbeiten uns Workflows für bestimmte Zwecke. Für Animation haben wir unter Franziskas Leitung einen skalierbaren Workflow entwickelt, orientiert an klassischen Animation Studios. Gleichzeitig verarbeiten wir alles, was an neuen Entwicklungen rauskommt, direkt in den Workflow.
Vor kurzem haben wir unter Peter Torwarts Regie sogar zwei parallele Workflows getestet: einen klassischen Text-to-Video-Workflow und einen Text-to-Image-to-Video-Workflow mit einem Bild dazwischen für mehr Kontrolle. Wir nutzen alles von Comfy über Runway ML bis hin zu allen möglichen GitHub-Tools.
Franziska Hansel: Wir haben grob drei Ansätze: Text-to-Video direkt, Text-to-Image-to-Video für mehr Kontrolle, und einen komplexeren Animations-Workflow mit 3D-Komponenten.
Wenn man es ganz klassisch aufbaut: Von der Idee geht es zum Exposé, vom Exposé zum Treatment, vom Treatment zum Drehbuch, vom Drehbuch zur Shotlist oder zum Storyboard – das machen wir meist schon mit KI. Dazwischen ist oft noch Worldbuilding, wo wir Stil, Welt und Figuren festlegen. Manchmal machen wir auch ein Casting im Sinne von Character Design, wo wir sehr genau festlegen, wie die Personen aussehen sollen. Von diesen machen wir dann konsistente Bilder in verschiedenen Posen und Outfits als Referenz.
Motion Capture trifft KI

The Decoder: Ihr habt auch mit echten Schauspielern gedreht? Wie integriert ihr das Drehmaterial in eure KI-Produktion?
Franziska Hansel: Ja, wir haben tatsächlich ein Casting gemacht und drei Schauspielerinnen hier gedreht. Die hatten Headrigs – wie bei Avatar, nur ohne die Punkte im Gesicht. Nur ein iPhone eingespannt, das reicht vollkommen. Damit erfassen wir nicht nur die Emotionen, sondern auch die Mundbewegungen der Figuren.
Das ist wichtig, weil gute Emotionen und Mundbewegungen von Gesichtern, inklusive passende Augenbewegungen, noch zu den größten Schwierigkeiten gehören. Wir wollten die authentischen Reaktionen haben – wie jemand wirklich reagiert, wenn er über einen Tisch klettern muss oder wenn jemand hinter ihm steht und "Pass auf!" ruft. Diese Authentizität können wir nicht generieren.
The Decoder: Welche Technik verwendet ihr, um diese Performance-Daten zu integrieren?
Franziska Hansel: Es gibt zum Beispiel Act One von Runway ML für Video-to-Video-Transfer von Emotionen. Oder LipSync AI. Kling hat ein Tool für Audio-to-Video Lippensynchronisation. Aber jedes Tool hat seine Edge-Cases: Runway erkennt manchmal Gesichter nicht, Kling funktioniert schlecht, wenn Figuren zur Seite schauen. Wir müssen pro Shot entscheiden, was wir verwenden. Es gibt leider nicht die eine perfekte Lösung.
Die Tool-Landschaft
The Decoder: Könnt ihr eine Übersicht über eure Tools geben? Was verwendet ihr zuverlässig?
Tobias M. Huber: Comfy ist großartig, hat aber den Nachteil, dass Dinge, die eigentlich einfach sein sollten, manchmal sehr lange brauchen. Die Installation von bestimmten Workflows dauert teilweise Tage, weil irgendwas technisch nicht funktioniert. Wir müssen dann mit den Developern in Kontakt treten.
Wir nutzen viel Open-Source-Technologie. Comfy selbst ist ja Community-driven. Stable Projector ist ein Tool, wo man mit Stable Diffusion 3D-Modelle neu texturieren kann. Neben Comfy und Forge für Bildgenerierung nutzen wir alle Online-Tools: Flux ist großartig, besonders Flux Pro Ultra für bestimmte Bilderwelten. Bei den Closed-Source-Tools: Runway ML, Google Veo. Und ChatGPT 4o hat sehr viel verändert – Control Nets und komplexe IP-Adapter-Geschichten, die bisher nur mit komplexen Comfy-Workflows möglich waren, sind damit viel einfacher geworden.
Franziska Hansel: Wir nehmen für Text-to-Video hauptsächlich Google Veo, aber nicht nur. Es gibt immer wieder Shots, wo andere Tools besser sind. Luma kann bestimmte Kamerafahrten sehr gut. Runway Gen 4 macht andere Sachen besser. Jedes einzelne Tool hat seine Vor- und Nachteile. Wir müssen es Pro-Shot festlegen. Es gibt keine Pipeline, wo man nur ein Tool verwendet – es ist immer eine Kombination.
Die drei größten Herausforderungen
The Decoder: Was sind aktuell die größten technischen Herausforderungen?
Tobias M. Huber: Der größte Faktor mit Abstand ist die kreative Kontrolle. Ein Regisseur, der mit der Vision herangeht "Ich will das alles exakt so haben, wie ich mir das vorstelle", wird scheitern. Man muss sich immer ein bisschen darauf einstellen, was die KI anbietet, und damit arbeiten.
Zweitens: Consistency – die Konsistenz zwischen Shots, Figuren und Charakteren. Wir trainieren Modelle auf einzelne Figuren, versuchen sehr genau zu prompten. Bei manchen Produktionen arbeiten wir mit 3D-Setups: Wir bauen in Blender das ganze Set einmal dar, machen Screenshots und verwenden die als Referenz für Konsistenz bei Schuss-Gegenschuss, Raumhöhen und so weiter. In unserem aktuellen Film – eine dunkle Höhle – kaschieren wir ehrlich gesagt ein bisschen, was im Hintergrund ist.
Drittens: Die Qualität. Die Bit-Tiefe ist sehr schlecht, man kann kaum Color Grading machen, Compositing ist schwierig. Der Output entspricht etwa dem, was man aus einem Schnittprogramm in niedriger Qualität exportieren würde. Für YouTube reicht's, aber wenn man professionell arbeiten möchte, hat der Output aus den KI-Tools nicht die nötige Qualität.
Ein Problem aus der Praxis
The Decoder: Kannst du ein konkretes Beispiel für die Kontroll-Probleme geben?
Tobias M. Huber: Ein banales Beispiel, das sofort zeigt, was das Problem ist: Man kann nicht prompten, dass eine Person im Bild links oder rechts steht. Die KI weiß nicht: Ist es "von der Person aus links" oder "im Bild links"? Wenn ich sage "Das Licht fällt auf die rechte Seite des Gesichts" – interpretiert das die KI einmal von mir aus rechts, einmal von der Person aus rechts.
Das ist eigentlich banal, aber daran wurde nicht gedacht, weil die Personen, die die Modelle entwickelt haben, nicht aus der Filmbranche kommen. In der Filmbranche ist klar festgelegt, wo links und rechts im Bild ist. Deswegen ist unsere Arbeit so wichtig – wir treiben diese Innovation von innen. Wir sind in allen Creative Partner Programs dabei, um genau dieses Feedback zu geben. Es sind viele solcher Beispiele, wo man schnell versteht: Das sind Probleme, die nur Filmemacher sehen.
Kostenvergleich zur klassischen Produktion
The Decoder: Was kostet so eine KI-Produktion im Vergleich zur klassischen Produktion?
Tobias M. Huber: Die Kosten sind verschwindend gering. Das Catering bei normalen Filmproduktionen kostet am Tag mehr als das, was wir für Tools ausgeben. Zusätzlich haben wir als Technology Leader Beta-Zugang zu Tools und müssen teilweise gar nichts bezahlen.
Unser aktueller Film spielt in einer Höhle – in der Theorie ein überschaubares Setup. Aber der Aufwand, das real zu drehen: Entweder in eine echte Höhle gehen und komplett ausleuchten – ein absoluter Horror aus Produktionsperspektive. Oder eine Virtual Production Stage mit LED-Wall mieten – 10.000 Euro pro Tag. Das ist überhaupt nicht vergleichbar. Wir haben die Schauspieler hier in unserem Büro gedreht und können damit Bilderwelten herstellen, die sonst unfassbar aufwendig wären.
Die Zukunft der Filmbranche
The Decoder: Wie seht ihr die Auswirkungen auf Schauspieler und Produktionsmitarbeiter?
Franziska Hansel: KI ist ein Tool – ein sehr fortgeschrittenes Tool, wie die Digitalkamera. Man merkt schnell: Ein Button klicken und ein Bild haben – das funktioniert nicht. Es erfordert sehr viel Skill. Die Gefahr für Jobs liegt weniger an der KI selbst, sondern an der kapitalistischen Art, wie Unternehmen damit umgehen.
James Cameron will KI einsetzen, aber nicht um an Schauspielern zu sparen, sondern um bessere und schnellere Filme zu machen. Uns geht es auch nicht darum, Schauspieler zu ersetzen – deshalb setzen wir sie ja ein. Unser Ziel sind Filme, die wir sonst nicht hätten machen können.
Ich glaube nicht, dass KI alles ersetzt. Wir haben das bei keiner Kunstform gesehen. Es gibt immer noch Theater, obwohl das objektiv betrachtet keinen Sinn macht – wir könnten ja Netflix schauen. Durch die Hyper-Digitalisierung sehen wir sogar Gegentrends. Jeder Trend hat einen Gegentrend.
Tobias M. Huber: Film war schon immer elitär – Equipment ist teuer, man braucht ein Team. Man dachte auch, Kino stirbt, als YouTube und iPhone-Videos kamen. Der Wert des Films blieb trotzdem.
Franziska Hansel: Der Shift geht von "wer hat Skill oder Ressourcen" zu "wer hat die besten Ideen". In Zukunft wird derjenige erfolgreich sein, der die beste kreative Vision hat. Die Mitte von hochwertigen Filmen mit tollen Ideen war ohnehin am Aussterben. Netflix produziert vielleicht drei, vier deutsche Filme im Jahr. KI bietet all diesen talentierten Menschen eine Chance, ihre Ideen umzusetzen.
Internationale vs. deutsche Wahrnehmung
The Decoder: Wie werdet ihr in der Branche wahrgenommen?
Tobias M. Huber: Es ist sehr unterschiedlich zwischen lokaler deutscher und internationaler Wahrnehmung. Wir sind selbstbewusst in der Aussage, dass wir weltweit ganz vorne mitspielen. Wir sprechen mit amerikanischen Majors, sind in Hollywood unterwegs. Die verstehen, was hier passiert.
In Deutschland ist die Wahrnehmung verhaltener. Viele haben die Haltung "lasst die mal machen, bis was Brauchbares für unsere Produktion rauskommt". Das finde ich sehr kurz gedacht. Aber wir haben auch nicht die Intention, als VFX-Ersatz in der Auftragsproduktion zu arbeiten – wir wollen unser eigenes Content nach vorne bringen.
Franziska Hansel: Ein Problem ist diese nicht greifbare Innovationswelle. Was heißt überhaupt KI? Für die deutsche Filmbranche mit noch weniger Ressourcen als in den USA ist es schwierig zu überlegen: Was ist diese Innovation und wie bringen wir sie in unsere seit 20 Jahren bestehenden Prozesse?
Unser Vorteil: Wir sind agil und schnell, weil wir neue Prozesse komplett schaffen können. Deutschland hat extrem starke KI-Talente – Stable Diffusion wurde in München an der LMU entwickelt! Wir haben das Know-how und könnten viel aufholen. Der AI Act der EU stört uns überhaupt nicht – er schafft eher Transparenz bei Unternehmen, die Modelle anbieten.
In den letzten Jahren habe ich noch nie so ein gutes Netzwerk gehabt wie in der KI-Welt. Diese Innovationswelle kann niemand alleine mittragen. Jeder kreative Mensch im Film hat 30 Ideen in der Schublade, die in den letzten Jahren abgelehnt wurden – "zu teuer, können wir nicht machen". KI öffnet diese Türen.
Storybook Studios arbeitet an der Schnittstelle zwischen traditioneller Filmproduktion und KI-Innovation. Ihre Erfahrungen verdeutlichen: KI kann ein Werkzeug für kreatives Schaffen sein, mit ganz neuen Möglichkeiten. Wir sind gespannt, auf den ersten Storybook-Kinofilm.