OpenAI beschleunigt KI-Bildgenerierung um das 50-fache

OpenAI stellt eine neue Methode vor, die das Training von KI-Bildmodellen dramatisch vereinfacht und beschleunigt.

OpenAI hat eine neue Methode namens sCM (für "simplified, stabilized and scaled Consistency Models") vorgestellt, die das Training von Consistency Models (CMs) für die Bilderzeugung verbessert. CMs sind eine Klasse von diffusionsbasierten generativen Modellen, die für schnelles Sampling optimiert sind und an denen das Unternehmen schon länger forscht.

Die als "sCM" bezeichnete Methode macht das Training dieser Modelle stabiler und skalierbarer. Laut OpenAI können die neuen Modelle bereits mit nur zwei Berechnungsschritten hochwertige Bilder erzeugen. Bisherige Methoden benötigten dafür deutlich mehr Schritte. Nach Angaben von OpenAI erreicht das größte sCM-Modell mit 1,5 Milliarden Parametern eine Generierungszeit von nur 0,11 Sekunden pro Bild auf einer A100-GPU - und das ohne spezielle Optimierungen. Im Vergleich zu herkömmlichen Diffusionsmodellen bedeute dies eine 50-fache Beschleunigung.

3x3 Bildergalerie: Schlange, Steinformation, Kakadu, Autospiegel, Schneeleopard, Flusslandschaft, Käfer, Lionfish, Keramik-Teeservice. — Ergebnisse nach zwei Schritten. Bild: OpenAI

Technischer Durchbruch bei der Bildgenerierung

Nach Angaben von OpenAI löst die neue Methode ein grundlegendes Problem: Bisherige Consistency Models arbeiteten mit diskreten Zeitschritten, was zusätzliche Parameter erforderte und fehleranfällig war. Die Forscher entwickelten dafür ein vereinfachtes theoretisches Framework, das verschiedene Ansätze vereint. Damit konnten sie die Hauptursachen für Instabilitäten beim Training identifizieren und beheben.

Das Ergebnis ist beeindruckend: In Tests erreichte das System mit nur zwei Rechenschritten FID-Scores von 2,06 auf dem CIFAR-10-Datensatz und 1,88 auf ImageNet mit 512x512-Pixel-Bildern - die Qualität der generierten Bilder liegt nach diesen Maßstäben nur noch knapp zehn Prozent hinter den besten bisherigen Diffusionsmodellen zurück.

Skalierung auf Rekordgröße möglich

Ein weiterer Vorteil der neuen Methode ist ihre Skalierbarkeit. OpenAI konnte damit erstmals Modelle mit bis zu 1,5 Milliarden Parametern auf dem ImageNet-Datensatz trainieren - eine bisher unerreichte Größenordnung für diese Art von Modellen. Die Forscher beobachteten dabei, dass die Qualität der generierten Bilder mit zunehmender Modellgröße kontinuierlich steigt.

Das deute darauf hin, dass sich die Methode auch für noch größere Modelle eignen könnte. Das ist ein wichtiger Aspekt für die weitere Entwicklung von KI-Bildgenerierung - und womöglich darüber hinaus für Video-, Audio- und 3D-Modelle.

Mehr Details und Beispiele gibt es im Blogpost von OpenAI.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI beschleunigt KI-Bildgenerierung um das 50-fache

Technischer Durchbruch bei der Bildgenerierung

Skalierung auf Rekordgröße möglich

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

OpenAI verbessert Bildbearbeitung mit ChatGPT, Sora und via API

OpenAI testet ChatGPT-Agenten für Tabellen und Präsentationen als Alternative zu Microsoft-Tools

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

OpenAI beschleunigt KI-Bildgenerierung um das 50-fache

Technischer Durchbruch bei der Bildgenerierung

Skalierung auf Rekordgröße möglich

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

OpenAI verbessert Bildbearbeitung mit ChatGPT, Sora und via API

OpenAI testet ChatGPT-Agenten für Tabellen und Präsentationen als Alternative zu Microsoft-Tools