Inhalt
summary Zusammenfassung

Forscher haben eine neue Methode namens "Diffusion Forcing" entwickelt, die die Stärken von autoregressiven Modellen und Diffusionsmodellen kombiniert. Das Verfahren ermöglicht unter anderem stabilere Videogenerierung und eine flexiblere Planung für Robotikaufgaben.

Anzeige

Wissenschaftler des MIT CSAIL und der Technischen Universität München haben eine neue Methode vorgestellt, die sie "Diffusion Forcing" nennen. Dabei lernt das Modell, eine Sequenz von Token oder Beobachtungen zu entrauschen, wobei jedes Token seinen eigenen, unabhängigen Rauschpegel hat. Auf diese Weise kombiniert das Verfahren die Vorteile autoregressiver Modelle, die heute große Sprachmodelle wie GPT-4 antreiben, mit denen von Diffusionsmodellen, die sich in der Bildgenerierung bewährt haben, z.B. in Stable Diffusion.

Bei der Next-Token-Prediction (Vorhersage des nächsten Tokens) wird in der Regel jedes Token "maskiert" und aus den vorhergehenden Tokens vorhergesagt. Bei der vollständigen Sequenzdiffusion wird die gesamte Sequenz schrittweise verrauscht, wobei alle Token den gleichen Rauschpegel haben.

Diffusion Forcing kombiniert beide Ansätze: Jedes Token, zum Beispiel jedes Wort eines Textes oder jedes Frame eines Videos, kann einen eigenen Rauschpegel zwischen 0 (unverändert) und K (reines Rauschen) haben. Auf diese Weise kann eine Sequenz teilweise maskiert werden. Das Modell lernt so, beliebige Teilmengen der beobachteten Sequenzen zu rekonstruieren.

Anzeige
Anzeige

Beim Sampling kann wie bei der Autoregression tokenweise vorgegangen werden, oder es können ganze Sequenzen auf einmal entrauscht werden, je nach gewünschtem Anwendungsfall. Durch geschickte Wahl der Rauschpegel kann auch die Unsicherheit über die Zukunft modelliert werden - nahe Token sind weniger verrauscht als ferne.

Diffusion Forcing generiert zeitlich stabile Videos und steuert Roboter

Die Wissenschaftler evaluierten ihr Verfahren in verschiedenen Anwendungen wie Videogenerierung, Zeitreihenvorhersage und Robotersteuerung. Dabei zeigte sich, dass Diffusion Forcing in vielen Fällen bessere Ergebnisse liefert als bisherige Methoden.

Bei der Videogenerierung beispielsweise können herkömmliche autoregressive Modelle oft nur für kurze Zeiträume plausible Ergebnisse liefern. Diffusion Forcing bleibt auch bei längeren Sequenzen stabil.

Videovorhersage durch Diffusion Forcing und Baselines im Minecraft-Datensatz (0,5x Geschwindigkeit). Teacher Forcing kann leicht fehlschlagen, während Diffusionsmodelle unter ernsthaften Konsistenzproblemen leiden. Mit Diffusion Forcing kann eine stabile und konsistente Videovorhersage erreicht werden. | Video: Chen et al.

In Reinforcement-Learning-Szenarien kann das Modell zudem Handlungssequenzen unterschiedlicher Länge planen, je nach den Erfordernissen der aktuellen Situation. Ähnlich wie bei Diffusionsmodellen für Bilder kann das Verfahren auch eingesetzt werden, um die Generierung in Richtung bestimmter Ziele zu lenken.

Empfehlung

Visualisierung des Diffusion Forcing Planungsprozesses am Beispiel eines simplen Labyrinths. Um die kausale Unsicherheit der Zukunft zu modellieren, kann der Diffusionsplan eine nahe Zukunft mit geringerem Rauschpegel und eine ferne Zukunft mit höherem Rauschpegel haben - hier visualisiert durch die Farbe. | Video: Chen et al.

Die Methode kann eingehende Beobachtungen als verrauscht behandeln, um robust gegenüber Ablenkungen zu sein. Im obigen Video zeigt das Team, wie ein durch Diffusion Forcing gesteuerter Roboterarm seine Aufgabe trotz der visuellen Störung durch eine zufällig in den Arbeitsbereich geworfene Einkaufstüte fortsetzt. | Video: Chen et al.

Die Forscher wollen die Methode nun weiter verbessern und auf größere Datensätze anwenden. Die meisten Experimente hat das Team mit einem kleinen RNN-Modell durchgeführt, größere Datensätze oder hochauflösende Videos erfordern große Transformer-Modelle. Erste Experimente mit Transformern sind aber bereits in Arbeit. Wenn sich die Methode gut skalieren lässt, könnte Diffusion Forcing bald viele Aufgaben übernehmen und robustere und bessere Ergebnisse liefern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben eine neue Methode namens "Diffusion Forcing" entwickelt, die autoregressive Modelle und Diffusionsmodelle kombiniert. Das Verfahren erlaubt es, jedes Token einer Sequenz mit einem eigenen Rauschpegel zu versehen und so beliebige Teilmengen der Sequenz zu rekonstruieren.
  • Bei der Videogenerierung liefert Diffusion Forcing auch bei längeren Sequenzen stabile und konsistente Ergebnisse, während herkömmliche autoregressive Modelle oft nur für kurze Zeiträume plausible Videos erzeugen können.
  • In Robotikanwendungen kann Diffusion Forcing Handlungssequenzen unterschiedlicher Länge planen und ist robust gegenüber visuellen Störungen. Erste Experimente mit größeren Transformer-Modellen lassen hoffen, dass sich die Methode gut skalieren lässt und bald viele Aufgaben übernehmen kann.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!