Inhalt
summary Zusammenfassung

Google DeepMind und das MIT haben mit "Fluid" ein neuartiges autoreggressives Modell zur Text-zu-Bild-Generierung vorgestellt, das bei der Skalierung auf 10,5 Milliarden Parameter Spitzenergebnisse erzielt.

Anzeige

Die Studie liefert wichtige Erkenntnisse zur Skalierbarkeit von KI-Modellen im Bereich der Bildgenerierung und deutet darauf hin, dass diese Modellklasse ein ähnliches Skalierungspotenzial wie große Sprachmodelle aufweisen könnte.

Bislang galten autoregressive Modelle - der Standard bei Sprachmodellen - bei der Bildgenerierung als weniger leistungsfähig als Diffusionsmodelle, wie sie etwa die Grundlage von Stable Diffusion oder Googles Imagen 3 bilden. Die Forscher identifizierten jedoch zwei entscheidende Designfaktoren, die die Leistung und Skalierbarkeit dieser Modelle deutlich verbessern: die Verwendung kontinuierlicher statt diskreter Tokens und eine zufällige statt einer festgelegten Generierungsreihenfolge.

Kontinuierliche Tokens ermöglichen präzisere Bildinformationen

Bei der Tokenisierung werden Bilder in kleinere Einheiten zerlegt, die das Modell verarbeiten kann. Diskrete Tokens ordnen jedem Bildbereich einen Code aus einem begrenzten Vokabular zu, was zu Informationsverlust führt. Selbst große Modelle mit diskreten Tokens konnten bestimmte Details wie symmetrische Augen nicht korrekt generieren.

Anzeige
Anzeige

Kontinuierliche Tokens hingegen speichern präzisere Informationen und ermöglichen eine deutlich bessere Rekonstruktion der Bilder. Die Studie zeigt, dass Modelle mit kontinuierlichen Tokens eine wesentlich höhere visuelle Qualität erreichen.

Die meisten autoregressiven Modelle erzeugen Bilder außerdem in einer festen Reihenfolge von links nach rechts und von oben nach unten. Die Forscher experimentierten mit einer zufälligen Reihenfolge, bei der das Modell in jedem Schritt mehrere Bildpunkte an beliebigen Positionen vorhersagen kann.

Diese Methode erwies sich als deutlich leistungsfähiger, insbesondere bei Aufgaben, die eine gute Erfassung der globalen Bildstruktur erfordern. In der GenEval-Benchmark, die die Übereinstimmung zwischen Text und generiertem Bild misst, schnitten Modelle mit zufälliger Reihenfolge deutlich besser ab.

Fluid übertrifft bestehende Modelle deutlich

Basierend auf diesen Erkenntnissen entwickelten die Forscher das Fluid-Modell, das kontinuierliche Tokens und eine zufällige Generierungsreihenfolge kombiniert. Bei der Skalierung auf 10,5 Milliarden Parameter erreichte Fluid Spitzenergebnisse in wichtigen Benchmarks und übertraf sowohl Diffusionsmodelle wie Stable Diffusion 3 als auch bisherige autoregressive Modelle wie Googles Parti.

Im Vergleich zu Parti zeigt Fluid deutliche Verbesserungen: Während Parti mit 20 Milliarden Parametern einen FID-Score von 7,23 auf MS-COCO erreichte, erzielte bereits ein kleines Fluid-Modell mit nur 369 Millionen Parametern den gleichen Wert.

Empfehlung

Die Ergebnisse legen nahe, dass autoregressive Modelle wie Fluid eine vielversprechende Alternative zu Diffusionsmodellen darstellen könnten. Während Diffusionsmodelle wie Stable Diffusion mehrere Vorwärts- und Rückwärtsdurchläufe benötigen, um ein Bild zu erzeugen, kann Fluid Bilder in einem einzigen Durchlauf generieren. Dies könnte zu einer effizienteren Bildgenerierung führen, insbesondere wenn die Modelle weiter skaliert werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google DeepMind und das MIT haben "Fluid" vorgestellt, ein neuartiges autoreggressives Modell zur Text-zu-Bild-Generierung, das bei 10,5 Milliarden Parametern Spitzenergebnisse erzielt und Erkenntnisse zur Skalierbarkeit von KI-Modellen in der Bildgenerierung liefert.
  • Zwei entscheidende Designfaktoren verbessern die Leistung: kontinuierliche statt diskrete Tokens ermöglichen präzisere Bildinformationen, und eine zufällige statt festgelegte Generierungsreihenfolge verbessert die Erfassung der globalen Bildstruktur.
  • Fluid übertrifft bestehende Modelle deutlich: Ein kleines Fluid-Modell mit 369 Millionen Parametern erreicht den gleichen FID-Score wie Googles Parti mit 20 Milliarden Parametern. Die Ergebnisse deuten darauf hin, dass autoregressive Modelle wie Fluid eine effiziente Alternative zu Diffusionsmodellen darstellen könnten.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!