Forscher haben eine neue Methode namens "Diffusion Forcing" entwickelt, die die Stärken von autoregressiven Modellen und Diffusionsmodellen kombiniert. Das Verfahren ermöglicht unter anderem stabilere Videogenerierung und eine flexiblere Planung für Robotikaufgaben.
Wissenschaftler des MIT CSAIL und der Technischen Universität München haben eine neue Methode vorgestellt, die sie "Diffusion Forcing" nennen. Dabei lernt das Modell, eine Sequenz von Token oder Beobachtungen zu entrauschen, wobei jedes Token seinen eigenen, unabhängigen Rauschpegel hat. Auf diese Weise kombiniert das Verfahren die Vorteile autoregressiver Modelle, die heute große Sprachmodelle wie GPT-4 antreiben, mit denen von Diffusionsmodellen, die sich in der Bildgenerierung bewährt haben, z.B. in Stable Diffusion.
Bei der Next-Token-Prediction (Vorhersage des nächsten Tokens) wird in der Regel jedes Token "maskiert" und aus den vorhergehenden Tokens vorhergesagt. Bei der vollständigen Sequenzdiffusion wird die gesamte Sequenz schrittweise verrauscht, wobei alle Token den gleichen Rauschpegel haben.
Diffusion Forcing kombiniert beide Ansätze: Jedes Token, zum Beispiel jedes Wort eines Textes oder jedes Frame eines Videos, kann einen eigenen Rauschpegel zwischen 0 (unverändert) und K (reines Rauschen) haben. Auf diese Weise kann eine Sequenz teilweise maskiert werden. Das Modell lernt so, beliebige Teilmengen der beobachteten Sequenzen zu rekonstruieren.
Beim Sampling kann wie bei der Autoregression tokenweise vorgegangen werden, oder es können ganze Sequenzen auf einmal entrauscht werden, je nach gewünschtem Anwendungsfall. Durch geschickte Wahl der Rauschpegel kann auch die Unsicherheit über die Zukunft modelliert werden - nahe Token sind weniger verrauscht als ferne.
Diffusion Forcing generiert zeitlich stabile Videos und steuert Roboter
Die Wissenschaftler evaluierten ihr Verfahren in verschiedenen Anwendungen wie Videogenerierung, Zeitreihenvorhersage und Robotersteuerung. Dabei zeigte sich, dass Diffusion Forcing in vielen Fällen bessere Ergebnisse liefert als bisherige Methoden.
Bei der Videogenerierung beispielsweise können herkömmliche autoregressive Modelle oft nur für kurze Zeiträume plausible Ergebnisse liefern. Diffusion Forcing bleibt auch bei längeren Sequenzen stabil.
In Reinforcement-Learning-Szenarien kann das Modell zudem Handlungssequenzen unterschiedlicher Länge planen, je nach den Erfordernissen der aktuellen Situation. Ähnlich wie bei Diffusionsmodellen für Bilder kann das Verfahren auch eingesetzt werden, um die Generierung in Richtung bestimmter Ziele zu lenken.
Die Forscher wollen die Methode nun weiter verbessern und auf größere Datensätze anwenden. Die meisten Experimente hat das Team mit einem kleinen RNN-Modell durchgeführt, größere Datensätze oder hochauflösende Videos erfordern große Transformer-Modelle. Erste Experimente mit Transformern sind aber bereits in Arbeit. Wenn sich die Methode gut skalieren lässt, könnte Diffusion Forcing bald viele Aufgaben übernehmen und robustere und bessere Ergebnisse liefern.