Seit rund drei Jahren erleben wir erstaunliche Fortschritte bei Künstlicher Intelligenz für Text und Bilder. Was ist die nächste Stufe?
Neben OpenAIs (noch) übermächtiger Bild-KI DALL-E 2 macht sich derzeit Midjourney einen Namen. Das auf einem Discord-Interface basierende KI-System erreicht zwar nicht die Konsistenz und Detailtreue von DALL-E 2, und schon gar nicht den Fotorealismus von OpenAIs System. Es kann aber mitunter ansprechende künstlerische Motive kreieren, wofür das Modell auch optimiert ist. Midjourney ist seit einigen Tagen in der offenen Beta verfügbar.
KI für alle? "Dafür gibt’s nicht genug Server"
David Holz (Gründer von Leap Motion, heute Ultraleap) ist CEO von Midjourney, das laut Holz derzeit mehrere 100.000 Kund:innen hat, die auf circa 10.000 Servern täglich mehrere Millionen Bilder generieren. Trotz dieser enormen Projektgröße hat Midjourney derzeit nur rund zehn Angestellte.
Allein auf Midjourneys Discord-Server sind rund eine Million Nutzer:innen aktiv. Diese Community ist Teil des Konzepts – Menschen seien im Kollektiv kreativer und könnten einander inspirieren, erklärt Holz.
Laut Holz fallen pro Bild "Tausende von Billionen von Operationen" an, ein Rechenaufwand für einen Computer-Service, wie es ihn laut Holz bislang nicht gegeben habe. Ein Trainingsdurchlauf für die Bild-KI liegt laut Holz bei rund 50.000 US-Dollar, pro Trainingsprozess seien mehrere ("3 bis 20") Durchläufe notwendig, bis das Ergebnis passt.
Trotz dieses hohen Rechenaufwands für Modelltraining und Nutzung soll Midjourney schon profitabel sein. Das Start-up finanziert sich eigenständig, Investoren sind nicht beteiligt.
Würden zehn Millionen Menschen eine Technologie wie Midjourney nutzen wollen, würde es dafür allerdings "nicht genug Computer geben", erklärt Holz. "Es gibt nicht mehrere Millionen freie Server für KI-Berechnungen." Der Menschheit würden wahrscheinlich die Computer ausgehen, bevor jede interessierte Person Zugriff auf KI-Services bekommt.
KI-Echtzeit-Inhalte kommen bald - werden aber teuer sein
Holz erwartet, dass KI-generierte Medien weiter rasante Fortschritte machen. In zwei Jahren soll es möglich sein, Inhalte in Echtzeit bei 30 Bildern pro Sekunden in hoher Auflösung zu generieren.
"Das wird teuer, aber es wird möglich sein", sagt Holz. Ein erster Schritt in diese Richtung ist Apples kürzlich vorgestellte GAUDI-KI, die aus Sätzen interaktive 3D-Szenen erstellt.
In zehn Jahren würde es dann eine Xbox mit KI-Prozessor geben, die alle Spiele in Echtzeit träumt, glaubt Holz. "Vom Standpunkt der Technik aus gesehen sind das einfach Fakten, und daran führt kein Weg vorbei." Die heute laut Holz noch "völlig unvorstellbare" Software für diese KI-Zukunft sei ein Fokus für sein Start-up.