KI generiert angeblich South-Park-Folge, aber es gibt Zweifel

Update

Es gibt Zweifel an der Echtheit des Projekts. Indizien dafür sind unter anderem die nicht existierende Adresse "500 Baudrillard Drive, San Francisco, CA 94127" sowie das von Fable Simulation gelistete Team, dessen Profilbilder KI-generiert sind.

Auch der Name des angeblichen CEO "Julian B. Adler" kann als Anagramm von Baudrillard gelesen werden. Jean Baudrillard war ein französischer Soziologe, Philosoph, Kulturtheoretiker, politischer Kommentator und Fotograf, der für seine Analysen von Hyperrealität und Simulation bekannt ist.

Die anderen aufgeführten angeblichen Teammitglieder scheinen ebenfalls bekannte Anspielungen auf bekannte Persönlichkeiten der Geschichte zu sein. Auch wenn Fable Studio auf der Website eine Telefonnummer angibt, lässt sich das Unternehmen darunter nicht erreichen, da man direkt zu einer Voicemail weitergeleitet wird.

Fakt ist: Fable Studio existiert und hat sich 2018 neu gegründet, als Facebook sein VR-Filmstudio schloss. Auch die im Artikel genannten Personen existieren, darunter Mitbegründer Edward Saatchi, der VentureBeat kürzlich ein Interview zur South Park-Episode gab.

Julian B Adler is an anagram of Jean Baudrillard (assuming the B stands for Brad) and the simulations address is 500 Baudrillard Avenue. Mystery solved. Too on the nose. I'm calling it that Matt and Trey are in on it. pic.twitter.com/jy1z1DUf2S

— Samantha B - Sincere Posts (0/100) (@KojimaErgoSum) July 19, 2023

Welche kreativen Fähigkeiten in Stable Diffusion oder GPT-4 stecken, ist bekannt. Ihnen fehlt jedoch der lange Atem für komplexe Handlungen. SHOW-1 soll das ändern.

Das KI-Unternehmen Fable Studio hat mehrere Modelle zu einem neuen Modell namens SHOW-1 kombiniert. Dieses ist in der Lage, mehrere zusammenhängende Episoden einer Serie zu generieren.

Dass ihr Konzept funktioniert, beweisen sie mit einer 22-minütigen Folge von "South Park", in der es, Überraschung, um den Einfluss der KI auf die Unterhaltungsindustrie geht.

Modell benötigt Titel, Zusammenfassung und wichtige Ereignisse, dann legt es los

Die Erstellung einer kompletten South-Park-Folge ist ein komplexer Prozess. Das Storytelling-System wird mit einer Idee auf abstrakter Ebene gestartet, normalerweise in Form eines Titels, einer Zusammenfassung und wichtiger Ereignisse, die innerhalb einer simulierten Woche (etwa drei Stunden Spielzeit) stattfinden sollen. Die Generierung einer einzelnen Szene kann eine "signifikante Zeit" in Anspruch nehmen und bis zu einer Minute dauern.

Das System erzeugt basierend auf Simulationsdaten bis zu 14 automatisierte Szenen.
Ein Showrunner-System organisiert die Rollenbesetzung und gestaltet die Handlung nach einem festgelegten Muster.
Jede Szene ist mit einem Handlungsbuchstaben (ABC) versehen, der genutzt wird, um zwischen verschiedenen Charaktergruppen zu wechseln.
Jede Szene definiert Ort, Charaktere und Dialoge.
Nach anfänglicher Einrichtung durch das Staging- und KI-Kamerasystem wird die Szene entsprechend dem Handlungsmuster abgespielt.
Die Stimmen der Charaktere wurden vortrainiert und Sprachclips in Echtzeit für jede neue Zeile erzeugt.

Grundlage der Arbeit von Fable Studio ist eine andere Forschungsarbeit mit dem Titel "Generative Agents", die im April von Stanford- und Google-Wissenschaftler:innen veröffentlicht wurde. Darin haben sie eine virtuelle Stadt simuliert und beobachtet, wie viele Vorgaben die sogenannten Agenten - also die Bewohner:innen - benötigen, um einem realistischen Tagesablauf zu folgen und miteinander zu interagieren.

GPT-4, eigene Diffusionsmodelle und geklonte Stimmen

SHOW-1 verwendet unter anderem OpenAIs GPT-4, um die Agenten in der Simulation zu beeinflussen und die Szenen für die South-Park-Episoden zu generieren. Da Transkripte der meisten South-Park-Episoden Teil des Trainingsdatensatzes von GPT-4 sind, habe es bereits ein gutes Verständnis für die Persönlichkeiten der Charaktere, den Sprachstil und den allgemeinen Humor der Show, so Fable Studio. Dieser dramaturgischer Fingerabdruck sei wichtig für die Konsistenz einer Serie.

Eine weitere Grundlage stellt das Prompt-Chaining, also die Verkettung mehrerer Prompts dar. Auch Deepminds Dramatron, das Drehbücher für Film und Fernsehen schreibt, nutzt die Technik.

Dabei agiert GPT-4 als sein eigener Diskriminator seiner Antworten, ähnlich zum Konzept von Auto-GPT. Allerdings sei die Generierung einer Geschichte eine "hochgradig diskontinuierliche Aufgabe" und benötige einen gewissen "Heureka"-Gedanken.

Für die Visualisierung haben die Entwickler:innen einen Datensatz mit rund 1.200 Charakteren und 600 Hintergründen genutzt. Auf deren Basis haben sie mithilfe von DreamBooth zwei spezialisierte Stable-Diffusion-Modelle trainiert: eines zur Generierung einzelner Charaktere vor einem einfarbigen Hintergrund, eines für die Hintergründe an sich, sodass sie sich modular zusammenfügen lassen.

Empfehlung

KI-Forschung

KI schlägt Neurowissenschaftler bei der Vorhersage von Forschungsergebnissen

Eine Besonderheit dieses Vorgehens: Nutzer:innen können über das Charaktermodell eine eigene Figur erstellen und sie an der Simulation teilnehmen lassen.

So könnte ein benutzerdefinierter South-Park-Charakter aussehen, den SHOW-1 in die Handlung integrieren kann. Bild: Fable Studio

Allerdings ist die Bildqualität aufgrund der verhältnismäßig niedrigen Auflösung von Diffusions-Modellen begrenzt, sodass die Entwickler:innen für die Zukunft vorschlagen, SVG-Vektoren per GPT-4 zu generieren, um die Grafiken verlustfrei hochskalieren zu können.

Weder Glücksspiel noch Haferbrei noch leere Seite

Bestehende KI-Modelle hätten unter anderem mit folgenden Problemen zu kämpfen, die SHOW-1 zwar nicht vollständig löse, aber zumindest reduziere:

Slot Machine Effect: Dieser Theorie zufolge gleicht die Benutzung der meisten KI-Modelle dem Glücksspiel, da sich Ergebnisse gar nicht oder nur schwer vorhersehen ließen.
Oatmeal Problem: Weiterer Kritikpunkt an bestehenden Modellen ist die Beobachtung, dass man das Gefühl bekomme, dass alles gleich aussehe. Bei Serienepisoden sei es besonders fatal, wenn Zuschauer:innen Muster erkennen würden und sich nicht mehr überraschen ließen.
Blank Page Problem: Selbst erfahrene Autor:innen würden sich laut Fable Studios manchmal überfordert fühlen, wenn sie einen Titel oder eine Idee für eine Geschichte entwickeln sollen. Das kann einem großen Sprachmodell mit SHOW-1 durch den Kontext über die vorherige Simulation nicht passieren.

Die Frage nach der Verantwortung

Und wer ist letztlich der Urheber der KI-Episode? Die Antwort ist komplexer, als es auf den ersten Blick scheint. Die Aufgabe teilen sich die Nutzer:innen von SHOW-1, GPT-4 und die Simulation, wobei eingestellt werden kann, wessen Meinung wie stark gewichtet werden soll.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Simulation liefert in der Regel den grundlegenden IP-basierten Kontext, die Geschichte der Charaktere, Emotionen, Ereignisse und Orte, die den Ausgangspunkt für den kreativen Prozess bilden. Der Benutzer bringt seine Intentionalität ein, übt die Verhaltenskontrolle über die Agenten aus und liefert die anfänglichen Aufforderungen, die den generativen Prozess in Gang setzen.

Der Benutzer dient auch als abschließender Diskriminator, der den generierten Geschichteninhalt am Ende des Prozesses bewertet. GPT-4 hingegen dient als Hauptgenerator, der die Szenen und Dialoge auf der Grundlage der vom Benutzer und der Simulation erhaltenen Eingabeaufforderungen erstellt und extrapoliert. Es handelt sich um einen symbiotischen Prozess, bei dem die Stärken aller Beteiligten zu einer kohärenten und fesselnden Geschichte beitragen.

Wichtig ist, dass unser mehrstufiger Ansatz in Form einer Prompt-Kette auch Kontrollen und Ausgleiche bietet, die das Potenzial für unerwünschte Zufälligkeiten verringern und eine konsistentere Ausrichtung auf die Story ermöglichen.

Aus dem Paper

Schon vor der Veröffentlichung von SHOW-1 befand sich die Unterhaltungsindustrie in Aufregung. Gerade Autor:innen fühlen sich durch die Fortschritte der KI bedroht. Fable Studio geht in seinem Paper nicht explizit auf diese Ängste ein.

Im Gegenteil: Sie argumentieren, dass ihr Ansatz eine effektive Lösung bietet, um die Grenzen aktueller Modelle für kreatives Storytelling zu umgehen.

"Wir sind zuversichtlich, dass wir durch die weitere Verfeinerung dieses Ansatzes die Qualität der generierten Inhalte, die Nutzererfahrung und das kreative Potenzial von generativen KI-Systemen für das Storytelling weiter verbessern können", heißt es abschließend.