Mit Stable Diffusion ist eine mächtige Open-Source Bild-KI verfügbar, die dem großen OpenAI für kleines Geld Konkurrenz macht. Auch das Training der KI dürfte vergleichsweise günstig gewesen sein.
Das Modell der Open-Source Bild-KI Stable Diffusion können Interessierte kostenlos bei Github herunterladen und lokal auf einer kompatiblen, handelsüblichen Grafikkarte ausführen. Die muss zwar einigermaßen potent sein (min. 5,1 GB VRAM), ein Highend-Rechner wird jedoch nicht benötigt.
Neben der lokalen, komplett kostenfreien Variante bietet das Stable-Diffusion-Team auch den Zugang über ein Web-Interface an. Für rund zwölf Euro erhält man circa 1000 Bildbefehle.
Ein wesentlicher Unterschied neben dem Preis: Die lokale Version läuft ohne Restriktionen, während die Web-Version Bildbefehle blockiert, die etwa sexuelle oder gewalthaltige Bilder generieren könnten. Auch DALL-E 2 und Midjourney haben diese Einschränkung.
Stable Diffusion: KI-Training für verhältnismäßig kleines Geld
Auch das Training der Bild-KI war relativ günstig, wie Emad Mostaque bei Twitter verrät. Der Mathematiker und Computerwissenschaftler ist Gründer von Stability AI, dem Start-up, das die treibende Kraft hinter Stable Diffusion ist.
Laut Mostaque verwendete das Stable-Diffusion-Team ein Cloud-Cluster mit 256 Nvidia A100-GPUs für das KI-Training. Das Training benötigte rund 150.000 Stunden, was laut Mostaque einem Marktpreis von rund 600.000 US-Dollar entspricht.
Für DALL-E 2 geht Mostaque von einem Rechenaufwand von circa einer Million A100-Stunden aus. Die Trainingskosten von OpenAIs Bild-KI dürfte also weit über jenen von Stable Diffusion liegen. Allerdings bietet DALL-E 2 nach aktuellem Stand auch eine bessere Leistung, was unter anderem in der Architektur begründet liegt, die allerdings nach mehr Trainingsdaten verlangt.
Dalle2 end to end (including vit-h and upscalers) is probably 1m A100 hours. On the nvidia eos supercluster (5760 h100s) assuming 3x uplift could train in like 60 hours.
— Emad (@EMostaque) July 13, 2022
KI-Training großer Modelle ist bezahlbar
Mostaques Erklärung ist in zweierlei Hinsicht interessant: Zum einen liefert er konkrete Trainingskosten. Zu anderen großen KI-Modellen wie DALL-E 2 oder GPT-3 gibt es zwar Spekulationen teils in Millionenhöhe, aber keine Fakten. Dank Stable Diffusion existiert nun ein konkreter Anhaltspunkt.
Zum anderen liegt der Trainingspreis mit 600.000 US-Dollar in einem finanziellen Rahmen, der für viele Unternehmen bezahlbar ist.
Das wiederum ist ein Indiz, dass eine Monopolstellung von Unternehmen wie OpenAI im Bereich großer KI-Modelle zumindest nicht aufgrund hoher Trainingskosten entstehen muss. Die eigentlichen Kostentreiber dürften das Personal für Forschung und Entwicklung sein sowie die Datensammlung und -pflege.