Inhalt
summary Zusammenfassung

Die TikTok-Firma Bytedance zeigt eine neue Bildgenerierungsmethode, die zwei inhaltliche Konzepte zu einem neuen vermischen kann.

"Semantic Mixing" nennt das Bytedance-Forschungsteam den Prozess, bei dem ein Diffusion-Modell angewiesen wird, zwei semantische Konzepte zu einem neuen zu vermischen: Aus einer Wassermelone und einer Lampe wird so etwa eine Lampe in Form einer Wassermelone. Aus Tiger und Kaninchen wird ein getigertes Kaninchen.

Einige Beispiele von mit MagicMix gemixten semantischen Konzepten. | Bild: Bytedance

Das semantische Mischen bezeichnen die Forschenden als schwieriges Problem, da selbst Menschen nicht immer genau sagen könnten, wie ein Ergebnis solch einer Mischung aussehen könnte.

Melonenlampen und Tigerkaninchen

Anders als beim Style-Transfer, bei dem der Bildinhalt unverändert bleibt und nur der Stil angepasst wird (aus einer Rendergrafik wird etwa eine gezeichnete Grafik), entstehen beim Semantic Mixing neue Motive. Layout und Geometrie des Ursprungsbildes bleiben dabei erhalten, was zu einer höheren Präzision und Stabilität bei der Bildgenerierung beiträgt.

Anzeige
Anzeige

Das Bytedance-Team verwendet für die Entwicklung der MagicMix-Methode Stable Diffusion 1.4 als Bild-KI. Das Diffusionsmodell, das aus Rauschen Bilder herausarbeitet, generiert zunächst Layout und Form eines Bildes. Erst im späteren Verlauf des Entrauschungsprozesses folgt das semantische Konzept.

Diese Zweistufigkeit macht sich MagicMix zunutze: Bytedance Methode erhält ebenfalls zunächst das grobe Layout anhand eines Bildes oder eines Textes. Dann stellt es im Generierungsprozess den Prompt auf das zweite semantische Konzept um. Eine räumliche Maske oder ein erneutes Training sind nicht notwendig.

KI-Bildbearbeitung wird noch flexibler

Der Prozess funktioniert sogar umgekehrt: MagicMix kann semantische Konzepte aus Bildern entfernen. Die Ergebnisse sind im Vergleich zur Konzeptmischung aber eher skurril. So wird aus einem Katzenbild ohne Katzen-Konzept ein seltsames Chamäleon. Ein Hundebild ohne Hund wird zu einer Sphinx-artigen Katze.

Interessant ist die Mischung von Tierrassen. Das zuvor genannte Tigerkaninchen ist ein ausgefallenes Beispiel, aber es geht auch realitätsnäher, etwa bei der Kreuzung von Hunderassen. Hier zeigt sich, dass die vermischten Konzepte ein Abbild der Realität darstellen können.

Bild: Bytedance

Ebenso sind fiktive Motive möglich, die etwa Kreative als Inspiration für ihre Arbeit verwenden könnten.

Empfehlung
Bild: Bytedance

Eine Stärke von MagicMix, die Beibehaltung des Layouts, ist zugleich eine Schwäche: Die Methode versagt, wenn sie inhaltliche Konzepte ohne Formähnlichkeit vermischen soll. Mischt man einen Lieferwagen mit einer Katze, entsteht statt einer Katze mit Reifen oder eines Lieferwagens mit Schnurrbarthaaren eine Katze auf einem Lieferwagen (oder ... nun ja).

Trotz dieser Einschränkung geht das Bytedance-Team davon aus, dass MagicMix weitere Möglichkeiten und Freiheiten beim Einsatz von Bild-KI-Systemen schafft.

Dank der starken Fähigkeit, neue Konzepte zu generieren, unterstützt unser MagicMix eine große Vielfalt von kreative Anwendungen, einschließlich semantischer Stilübertragung (z. B. Generierung eines neuen Zeichens anhand eines Zeichenlayout und einem bestimmten gewünschten Inhalt), neuartige Objektsynthese (z. B. Erzeugung einer Lampe, die wie eine Wassermelonenscheibe aussieht), Rassenmischung (z. B. Erzeugung einer neuen Spezies durch Mischung von "Kaninchen" und "Tiger") und Konzeptentfernung (z. B. Synthese eines nicht-orangenen Objekts, das wie eine Orange aussieht). Obwohl die Lösung einfach ist, ebnet sie eine neue Richtung im Bereich der Computergrafik und bietet neue Möglichkeiten für KI-gestützte Entwürfe für Künstler in einem weiten Bereich, wie z. B. Unterhaltung, Kinematographie, und CG-Effekte.

Auszug aus dem Paper

Da MagicMix auf Stable Diffusion basiert, was wiederum unter anderem mit einem LAION-Datensatz trainiert ist, weist das Bytedance-Team auf "soziale und kulturelle Verzerrungen" bei der Bildgenerierung hin.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Melonenlampen und Tigerkaninchen: Die TikTok-Firma Bytedance stellt die Bildgenerierungsmethode "Magic Mix" vor.
  • Sie kann zwei semantische Konzepte zu einem neuen verschmelzen. Aus einem Kaninchen und einem Tiger wird etwa ein Tiger-Kaninchen.
  • Voraussetzung ist allerdings, dass die zu verschmelzenden Bildkonzepte eine gewisse Formähnlichkeit haben.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!