Derzeit ist Stable Diffusion "nur" ein potenter KI-Bildgenerator. Langfristige Pläne gehen weit darüber hinaus.
Generative KI ist seit einigen Monaten deutlich auf dem Vormarsch: Von Text zu Bild über Text zu HD-Video oder Text zu 3D – KI-Systeme können immer mehr Medienformate teils vollständig automatisiert erstellen. Neue Modelle erscheinen beinahe im Wochentakt und werden kontinuierlich besser.
Hinzu kommt, dass mit generativen KI-Tools auch die händische Digitalisierung der realen Welt immer leichter fällt, wenn etwa relativ simple Anwendungen für PC und Smartphone aus einzelnen Fotos eines Objekts oder eines Raumes durch NeRF-Technik eine volumetrische 3D-Szene generieren.
Anhand der aktuellen Entwicklung könnte man also die These aufstellen, dass generative Künstliche Intelligenz ein starker Motor zunehmender Digitalisierung wird, da sie Quantität und Qualität digitaler Inhalte signifikant steigern kann. Die Königsdisziplin wäre ein einzelnes Modell für viele Medienarten, das über ein universelles Interface von Profis wie Laien gleichzeitig bedienbar ist.
In ein paar Jahren zum Holodeck
Im Kontext dieser These sind die Äußerungen von Stability-AI-CEO Emad Mostaque im Rahmen eines Reddit-AMAs zu sehen. Stability AI Ist das Start-up hinter der eingangs erwähnten Open Source Bild-KI Stable Diffusion.
Als Ziel für die eigenen generativen KI-Modelle nennt Mostaque eine Erfahrung, die der Oasis aus dem VR-Sci-Fi-Film Ready Player One oder dem berühmten Holodeck aus Star Trek ähnelt.
Dieses Angebot solle weiter Open Source sein, sodass alle "alles kreieren können, was sie sich vorstellen können". Dies erfordere bei den KI-Modellen "vollständige Multimodalität", also generative KI-Systeme, die mit zahlreichen Inhalten und Dateiformaten trainiert sind.
Laut Mostaque ist Stabililty AI bereits im Austausch mit Spielestudios und anderen Unternehmen mit Zugriff auf 3D-Daten für die Datensammlung. "In ein paar Jahren machen wir so etwas wie das Holodeck", sagt Mostaque.
Ähnlich äußerte sich kürzlich Midjourney-CEO David Holz. Er geht davon aus, dass in zehn Jahren in Echtzeit KI-generierte Videospiele existieren. Kürzlich gab ein Entwickler einen Vorgeschmack, wie die Implementierung von Stable Diffusion in VR-Welten aussehen könnte.
Mostaque kündigt weitere Verbesserungen und mögliche Copyright-Lösung für Stable Diffusion an
Für die nahe Zukunft kündigt Mostaque weitere signifikante Verbesserungen für Stable Diffusion an. Stability AI trainiere derzeit Modelle mit Milliarden Parametern, die anschließend optimiert würden.
"Ich erwarte, dass die Modelle in Zukunft in einer Qualität laufen werden, die weit über MJ v4 oder DALL-E 2 liegt. Die Zukunft ist das nächste oder übernächste Jahr", sagt Mostaque.
Der CEO adressiert zudem Kritik am bisherigen Modell, das für das KI-Training Copyright-geschützte Daten verwendet. Dadurch kann es etwa Bilder im Stile berühmter Künstler:innen generieren, wenn diese in der Eingabeaufforderung stehen. Das klappt auch bei den Mitbewerbern DALL-E 2 und Midjourney.
"Wir arbeiten an vollständig lizenzierten Datensätzen sowie an Opt-out-Mechanismen für künftige Modellentwicklungen, die wir durchführen und unterstützen. Wir werden in Kürze einige Ankündigungen dazu machen", sagt Mostaque.
Stability AI befinde sich außerdem in Gesprächen mit Regierungen zu Open-Source-Datensätzen und -Modellen und arbeite an internationalen Bildungsinitiativen, die über die Möglichkeiten von KI aufklären.