OpenAI stellt eine neue Methode vor, die das Training von KI-Bildmodellen dramatisch vereinfacht und beschleunigt.
OpenAI hat eine neue Methode namens sCM (für "simplified, stabilized and scaled Consistency Models") vorgestellt, die das Training von Consistency Models (CMs) für die Bilderzeugung verbessert. CMs sind eine Klasse von diffusionsbasierten generativen Modellen, die für schnelles Sampling optimiert sind und an denen das Unternehmen schon länger forscht.
Die als "sCM" bezeichnete Methode macht das Training dieser Modelle stabiler und skalierbarer. Laut OpenAI können die neuen Modelle bereits mit nur zwei Berechnungsschritten hochwertige Bilder erzeugen. Bisherige Methoden benötigten dafür deutlich mehr Schritte. Nach Angaben von OpenAI erreicht das größte sCM-Modell mit 1,5 Milliarden Parametern eine Generierungszeit von nur 0,11 Sekunden pro Bild auf einer A100-GPU - und das ohne spezielle Optimierungen. Im Vergleich zu herkömmlichen Diffusionsmodellen bedeute dies eine 50-fache Beschleunigung.
Technischer Durchbruch bei der Bildgenerierung
Nach Angaben von OpenAI löst die neue Methode ein grundlegendes Problem: Bisherige Consistency Models arbeiteten mit diskreten Zeitschritten, was zusätzliche Parameter erforderte und fehleranfällig war. Die Forscher entwickelten dafür ein vereinfachtes theoretisches Framework, das verschiedene Ansätze vereint. Damit konnten sie die Hauptursachen für Instabilitäten beim Training identifizieren und beheben.
Das Ergebnis ist beeindruckend: In Tests erreichte das System mit nur zwei Rechenschritten FID-Scores von 2,06 auf dem CIFAR-10-Datensatz und 1,88 auf ImageNet mit 512x512-Pixel-Bildern - die Qualität der generierten Bilder liegt nach diesen Maßstäben nur noch knapp zehn Prozent hinter den besten bisherigen Diffusionsmodellen zurück.
Skalierung auf Rekordgröße möglich
Ein weiterer Vorteil der neuen Methode ist ihre Skalierbarkeit. OpenAI konnte damit erstmals Modelle mit bis zu 1,5 Milliarden Parametern auf dem ImageNet-Datensatz trainieren - eine bisher unerreichte Größenordnung für diese Art von Modellen. Die Forscher beobachteten dabei, dass die Qualität der generierten Bilder mit zunehmender Modellgröße kontinuierlich steigt.
Das deute darauf hin, dass sich die Methode auch für noch größere Modelle eignen könnte. Das ist ein wichtiger Aspekt für die weitere Entwicklung von KI-Bildgenerierung - und womöglich darüber hinaus für Video-, Audio- und 3D-Modelle.
Mehr Details und Beispiele gibt es im Blogpost von OpenAI.