Inhalt
summary Zusammenfassung

Stable Diffusion trifft auf Reinforcement Learning - und zeigt, wie effektiv generative KI-Modelle für Bilder auf nachgelagerte Aufgaben trainiert werden können.

Diffusionsmodelle sind heute der Standard in der Bildsynthese und finden auch Anwendung in der Synthese künstlicher Proteine, wo sie bei der Entwicklung von Medikamenten helfen können. Der Diffusionsprozess wandelt zufälliges Rauschen in ein Muster um, also ein Bild oder eine Proteinstruktur.

Während des Trainings lernen die Diffusionsmodelle, Inhalte aus den Trainingsdaten stückweise zu rekonstruieren. In diesen Prozess versuchen Forschende nun mittels Reinforcement Learning einzugreifen, um die generativen KI-Modelle nachträglich auf bestimmte Ziele zu trainieren, etwa um die ästhetische Qualität von Bildern zu verbessern. Das ist inspiriert vom Finetuning großer Sprachmodelle, wie es zum Beispiel bei OpenAI's ChatGPT zum Einsatz kommt.

Reinforcement Learning für ästhetischer Bilder?

Eine neue Arbeit von Berkeley Scientific Intelligence Research untersucht, wie effektiv das Reinforcement Learning mittels Denoising Diffusion Policy Optimization (DDPO) für das Finetuning auf verschiedene Ziele ist.

Anzeige
Anzeige

Das Team trainiert Stable Diffusion auf vier Aufgaben:

  • Komprimierbarkeit: Wie gut lässt sich das Bild mit dem JPEG-Algorithmus komprimieren? Die Belohnung ist die negative Dateigröße des Bildes (in kB), wenn es als JPEG gespeichert wird.
  • Inkompressibilität: Wie schwierig ist es, das Bild mit dem JPEG-Algorithmus zu komprimieren? Die Belohnung ist die positive Dateigröße des Bildes (in kB), wenn es als JPEG gespeichert wird.
  • Ästhetische Qualität: Wie ästhetisch ist das Bild für das menschliche Auge? Die Belohnung ist die Ausgabe des LAION Ästhetik-Prädiktors, einem neuronalen Netz, das auf der Basis menschlicher Vorlieben trainiert wurde.
  • Prompt-Bild-Alignment: Wie gut stellt das Bild das dar, was in der Aufforderung gefordert wird? Dies ist etwas komplizierter: Wir geben das Bild in LLaVA ein, lassen es beschreiben und berechnen dann mit BERTScore die Ähnlichkeit zwischen dieser Beschreibung und der ursprünglichen Aufforderung.
LLaVA hilft, Prompt und Bild näher zusammenzubringen. | Bild: BAIR

In ihren Tests konnte das Team zeigen, dass DDPO effektiv für die Optimierung der vier Aufgaben eingesetzt werden kann. Darüber hinaus zeigte sich eine gewisse Generalisierbarkeit: Die Optimierungen für die ästhetische Qualität oder das Prompt-Bild-Alignment wurden beispielsweise für 45 häufige Tierarten durchgeführt, waren aber auch auf andere Tierarten oder die Darstellung unbelebter Objekte übertragbar.

Video: BAIR

Neue Methode benötigt keine Trainingsdaten

Wie bei Reinforcement Learning üblich, zeigt auch DDPO das Phänomen der Überoptimierung hin zur Belohnung: Das Modell zerstört in allen Aufgaben ab einem bestimmten Zeitpunkt alle sinnvollen Bildinhalte, um die Belohnung zu maximieren. Dieses Problem müsse in weiteren Arbeiten untersucht werden.

Bild: BAIR

Dennoch ist die Methode vielversprechend: "Wir haben einen Weg gefunden, Diffusionsmodelle auf eine Weise zu trainieren, die über das Pattern-Matching hinausgeht - und die nicht unbedingt Trainingsdaten erfordert. Die Möglichkeiten sind nur durch die Qualität und Kreativität der Belohnungsfunktion begrenzt."

Empfehlung

Mehr Informationen und Beispiele gibt es auf der BAIR-Projektseite zu DDPO.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende von Berkeley Artificial Intelligence Research (BAIR) verwenden Reinforcement Learning, um generative KI-Modelle für Bilder weiter zu optimieren.
  • In Tests hat sich Denoising Diffusion Policy Optimization (DDPO) als effektiv bei der Optimierung von Kompression, ästhetischer Qualität und Prompt-Bild-Alignment erwiesen.
  • Die Methode benötigt keine Trainingsdaten und eröffnet neue Möglichkeiten in der KI-gestützten Bildsynthese, die jedoch weiter untersucht werden müssen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!