Google DeepMind und das MIT haben mit "Fluid" ein neuartiges autoreggressives Modell zur Text-zu-Bild-Generierung vorgestellt, das bei der Skalierung auf 10,5 Milliarden Parameter Spitzenergebnisse erzielt.
Die Studie liefert wichtige Erkenntnisse zur Skalierbarkeit von KI-Modellen im Bereich der Bildgenerierung und deutet darauf hin, dass diese Modellklasse ein ähnliches Skalierungspotenzial wie große Sprachmodelle aufweisen könnte.
Bislang galten autoregressive Modelle - der Standard bei Sprachmodellen - bei der Bildgenerierung als weniger leistungsfähig als Diffusionsmodelle, wie sie etwa die Grundlage von Stable Diffusion oder Googles Imagen 3 bilden. Die Forscher identifizierten jedoch zwei entscheidende Designfaktoren, die die Leistung und Skalierbarkeit dieser Modelle deutlich verbessern: die Verwendung kontinuierlicher statt diskreter Tokens und eine zufällige statt einer festgelegten Generierungsreihenfolge.
Kontinuierliche Tokens ermöglichen präzisere Bildinformationen
Bei der Tokenisierung werden Bilder in kleinere Einheiten zerlegt, die das Modell verarbeiten kann. Diskrete Tokens ordnen jedem Bildbereich einen Code aus einem begrenzten Vokabular zu, was zu Informationsverlust führt. Selbst große Modelle mit diskreten Tokens konnten bestimmte Details wie symmetrische Augen nicht korrekt generieren.
Kontinuierliche Tokens hingegen speichern präzisere Informationen und ermöglichen eine deutlich bessere Rekonstruktion der Bilder. Die Studie zeigt, dass Modelle mit kontinuierlichen Tokens eine wesentlich höhere visuelle Qualität erreichen.
Die meisten autoregressiven Modelle erzeugen Bilder außerdem in einer festen Reihenfolge von links nach rechts und von oben nach unten. Die Forscher experimentierten mit einer zufälligen Reihenfolge, bei der das Modell in jedem Schritt mehrere Bildpunkte an beliebigen Positionen vorhersagen kann.
Diese Methode erwies sich als deutlich leistungsfähiger, insbesondere bei Aufgaben, die eine gute Erfassung der globalen Bildstruktur erfordern. In der GenEval-Benchmark, die die Übereinstimmung zwischen Text und generiertem Bild misst, schnitten Modelle mit zufälliger Reihenfolge deutlich besser ab.
Fluid übertrifft bestehende Modelle deutlich
Basierend auf diesen Erkenntnissen entwickelten die Forscher das Fluid-Modell, das kontinuierliche Tokens und eine zufällige Generierungsreihenfolge kombiniert. Bei der Skalierung auf 10,5 Milliarden Parameter erreichte Fluid Spitzenergebnisse in wichtigen Benchmarks und übertraf sowohl Diffusionsmodelle wie Stable Diffusion 3 als auch bisherige autoregressive Modelle wie Googles Parti.
Im Vergleich zu Parti zeigt Fluid deutliche Verbesserungen: Während Parti mit 20 Milliarden Parametern einen FID-Score von 7,23 auf MS-COCO erreichte, erzielte bereits ein kleines Fluid-Modell mit nur 369 Millionen Parametern den gleichen Wert.
Die Ergebnisse legen nahe, dass autoregressive Modelle wie Fluid eine vielversprechende Alternative zu Diffusionsmodellen darstellen könnten. Während Diffusionsmodelle wie Stable Diffusion mehrere Vorwärts- und Rückwärtsdurchläufe benötigen, um ein Bild zu erzeugen, kann Fluid Bilder in einem einzigen Durchlauf generieren. Dies könnte zu einer effizienteren Bildgenerierung führen, insbesondere wenn die Modelle weiter skaliert werden.