Inhalt
summary Zusammenfassung

OpenAI stellt eine neue Methode vor, die das Training von KI-Bildmodellen dramatisch vereinfacht und beschleunigt.

Anzeige

OpenAI hat eine neue Methode namens sCM (für "simplified, stabilized and scaled Consistency Models") vorgestellt, die das Training von Consistency Models (CMs) für die Bilderzeugung verbessert. CMs sind eine Klasse von diffusionsbasierten generativen Modellen, die für schnelles Sampling optimiert sind und an denen das Unternehmen schon länger forscht.

Die als "sCM" bezeichnete Methode macht das Training dieser Modelle stabiler und skalierbarer. Laut OpenAI können die neuen Modelle bereits mit nur zwei Berechnungsschritten hochwertige Bilder erzeugen. Bisherige Methoden benötigten dafür deutlich mehr Schritte. Nach Angaben von OpenAI erreicht das größte sCM-Modell mit 1,5 Milliarden Parametern eine Generierungszeit von nur 0,11 Sekunden pro Bild auf einer A100-GPU - und das ohne spezielle Optimierungen. Im Vergleich zu herkömmlichen Diffusionsmodellen bedeute dies eine 50-fache Beschleunigung.

3x3 Bildergalerie: Schlange, Steinformation, Kakadu, Autospiegel, Schneeleopard, Flusslandschaft, Käfer, Lionfish, Keramik-Teeservice.
Ergebnisse nach zwei Schritten. Bild: OpenAI

Technischer Durchbruch bei der Bildgenerierung

Nach Angaben von OpenAI löst die neue Methode ein grundlegendes Problem: Bisherige Consistency Models arbeiteten mit diskreten Zeitschritten, was zusätzliche Parameter erforderte und fehleranfällig war. Die Forscher entwickelten dafür ein vereinfachtes theoretisches Framework, das verschiedene Ansätze vereint. Damit konnten sie die Hauptursachen für Instabilitäten beim Training identifizieren und beheben.

Anzeige
Anzeige

Das Ergebnis ist beeindruckend: In Tests erreichte das System mit nur zwei Rechenschritten FID-Scores von 2,06 auf dem CIFAR-10-Datensatz und 1,88 auf ImageNet mit 512x512-Pixel-Bildern - die Qualität der generierten Bilder liegt nach diesen Maßstäben nur noch knapp zehn Prozent hinter den besten bisherigen Diffusionsmodellen zurück.

Skalierung auf Rekordgröße möglich

Ein weiterer Vorteil der neuen Methode ist ihre Skalierbarkeit. OpenAI konnte damit erstmals Modelle mit bis zu 1,5 Milliarden Parametern auf dem ImageNet-Datensatz trainieren - eine bisher unerreichte Größenordnung für diese Art von Modellen. Die Forscher beobachteten dabei, dass die Qualität der generierten Bilder mit zunehmender Modellgröße kontinuierlich steigt.

Das deute darauf hin, dass sich die Methode auch für noch größere Modelle eignen könnte. Das ist ein wichtiger Aspekt für die weitere Entwicklung von KI-Bildgenerierung - und womöglich darüber hinaus für Video-, Audio- und 3D-Modelle.

Mehr Details und Beispiele gibt es im Blogpost von OpenAI.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI präsentiert "sCM", eine optimierte Trainingsmethode für Consistency Models zur Bilderzeugung, die mit nur zwei Berechnungsschritten hochwertige Bilder generieren kann.
  • Das größte sCM-Modell mit 1,5 Milliarden Parametern benötigt auf einer A100-GPU nur 0,11 Sekunden pro Bild und ist damit 50-mal schneller als herkömmliche Diffusionsmodelle.
  • In Tests erreichte das System FID-Scores von 2,06 auf CIFAR-10 und 1,88 auf ImageNet mit 512x512-Pixel-Bildern. Die Bildqualität liegt damit nur etwa zehn Prozent hinter den besten bisherigen Diffusionsmodellen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!