KI in der Praxis

Stable Diffusion: KI-Training des DALL-E-Konkurrenten war erstaunlich günstig

Matthias Bastian

DALL-E 2 prompted by THE DECODER

Mit Stable Diffusion ist eine mächtige Open-Source Bild-KI verfügbar, die dem großen OpenAI für kleines Geld Konkurrenz macht. Auch das Training der KI dürfte vergleichsweise günstig gewesen sein.

Das Modell der Open-Source Bild-KI Stable Diffusion können Interessierte kostenlos bei Github herunterladen und lokal auf einer kompatiblen, handelsüblichen Grafikkarte ausführen. Die muss zwar einigermaßen potent sein (min. 5,1 GB VRAM), ein Highend-Rechner wird jedoch nicht benötigt.

Neben der lokalen, komplett kostenfreien Variante bietet das Stable-Diffusion-Team auch den Zugang über ein Web-Interface an. Für rund zwölf Euro erhält man circa 1000 Bildbefehle.

Ein wesentlicher Unterschied neben dem Preis: Die lokale Version läuft ohne Restriktionen, während die Web-Version Bildbefehle blockiert, die etwa sexuelle oder gewalthaltige Bilder generieren könnten. Auch DALL-E 2 und Midjourney haben diese Einschränkung.

Stable Diffusion: KI-Training für verhältnismäßig kleines Geld

Auch das Training der Bild-KI war relativ günstig, wie Emad Mostaque bei Twitter verrät. Der Mathematiker und Computerwissenschaftler ist Gründer von Stability AI, dem Start-up, das die treibende Kraft hinter Stable Diffusion ist.

Laut Mostaque verwendete das Stable-Diffusion-Team ein Cloud-Cluster mit 256 Nvidia A100-GPUs für das KI-Training. Das Training benötigte rund 150.000 Stunden, was laut Mostaque einem Marktpreis von rund 600.000 US-Dollar entspricht.

Für DALL-E 2 geht Mostaque von einem Rechenaufwand von circa einer Million A100-Stunden aus. Die Trainingskosten von OpenAIs Bild-KI dürfte also weit über jenen von Stable Diffusion liegen. Allerdings bietet DALL-E 2 nach aktuellem Stand auch eine bessere Leistung, was unter anderem in der Architektur begründet liegt, die allerdings nach mehr Trainingsdaten verlangt.

KI-Training großer Modelle ist bezahlbar

Mostaques Erklärung ist in zweierlei Hinsicht interessant: Zum einen liefert er konkrete Trainingskosten. Zu anderen großen KI-Modellen wie DALL-E 2 oder GPT-3 gibt es zwar Spekulationen teils in Millionenhöhe, aber keine Fakten. Dank Stable Diffusion existiert nun ein konkreter Anhaltspunkt.

Zum anderen liegt der Trainingspreis mit 600.000 US-Dollar in einem finanziellen Rahmen, der für viele Unternehmen bezahlbar ist.

Das wiederum ist ein Indiz, dass eine Monopolstellung von Unternehmen wie OpenAI im Bereich großer KI-Modelle zumindest nicht aufgrund hoher Trainingskosten entstehen muss. Die eigentlichen Kostentreiber dürften das Personal für Forschung und Entwicklung sein sowie die Datensammlung und -pflege.

Quellen: