Inhalt
summary Zusammenfassung

Mit nur einer Milliarde Parametern könnte Meissonic die Entwicklung lokaler Text-zu-Bild-Anwendungen vor allem auf mobilen Geräten vorantreiben. 

Anzeige

Forschende der Alibaba Group, Skywork AI sowie verschiedener Universitäten haben mit Meissonic ein Open-Source-Modell entwickelt, das durch eine spezielle Transformer-Architektur und fortschrittliche Trainingsmethoden hochauflösende Bilder effizient generieren und bearbeiten können soll. Es ist so klein, dass es auf Gaming-Rechnern und in Zukunft vielleicht sogar Smartphones betrieben werden kann.

Meissonic verwendet den maskierten Bild-Modellierungsansatz, bei dem Teile des Bildes während des Trainings verdeckt oder "maskiert" werden. Das Modell lernt dann, die fehlenden Teile des Bildes basierend auf den sichtbaren Teilen und der Textbeschreibung zu rekonstruieren. Dieser Prozess hilft dem Modell, die Zusammenhänge zwischen verschiedenen Bildelementen und der Textbeschreibung besser zu verstehen.

Zusätzlich nutzt Meissonic eine spezielle Transformer-Architektur, die es ermöglicht, hochauflösende Bilder mit einer Größe von bis zu 1024 × 1024 Pixeln zu generieren. Mit dieser Technik kann Meissonic neben fotorealistischen Motiven auch stilisierte Buchstaben, Memes oder Cartoon-Sticker erzeugen.

Anzeige
Anzeige
KI-Bildcollage mit verschiedenen Motiven, darunter einem Teddybär im Stile Van Goghs, futuristische Architektur, Cartoon-Figuren, Sci-Fi-Charaktere und anthropomorphe Tiere.
Beispielbilder in verschiedenen Stilen, die mit Meissonic erstellt wurden.

Im Gegensatz zu herkömmlichen autoregressiven Modellen, die Bilder sequenziell erzeugen, sagt Meissonic alle Bildtokens gleichzeitig in einem parallelen, iterativen Verfeinerungsprozess vorher.

Dieser nicht-autoregressive Ansatz reduziert laut Paper die Anzahl der Decodierungsschritte im Vergleich zu autoregressiven Methoden um etwa 99 Prozent, was die Bildsynthese erheblich beschleunigt.

Flussdiagramm: Multi-modaler Transformer für MIM, zeigt Verarbeitung von Text und Bild durch verschiedene Blöcke zu einer gemeinsamen Ausgabe.
Die Verarbeitungspipeline des KI-Bildmodells Meissonic. Es zeigt, wie Text- und Bildeingaben durch verschiedene Transformerblöcke verarbeitet werden, um multimodale Ausgaben zu erzeugen.

Um die Leistung des maskierten Bild-Modellierungsansatzes zu verbessern, kombiniert Meissonic mehrmodale und monomodale Transformer-Schichten. Die mehrmodalen Schichten erfassen Interaktionen zwischen Text und Bild, während die monomodalen Schichten die visuelle Repräsentation verfeinern. Laut den Forschenden ergibt ein Verhältnis von etwa 1:2 zwischen diesen beiden Schichttypen die optimale Leistung.

Progressives Training mit hochwertigen Daten und Funktionskompressionsschichten

Die Forscher haben das neue Bild-KI-Modell "Meissonic" in vier Schritten trainiert, um hochwertige Bilder zu erzeugen. Zunächst lernte das Modell grundlegende Konzepte aus einem großen, sorgfältig ausgewählten Datensatz mit etwa 200 Millionen Bildern in einer Auflösung von 256 × 256 Pixeln.

Im zweiten Schritt verbesserten die Forscher die Fähigkeit des Modells, lange und detaillierte Textbeschreibungen zu verstehen. Dazu nutzten sie einen stärker gefilterten Datensatz mit etwa zehn Millionen Bild-Text-Paaren und erhöhten die Trainingsauflösung auf 512 × 512 Pixel.

Empfehlung

Im dritten Schritt führten die Forscher spezielle Schichten ein, die die Daten komprimieren und dekomprimieren, um den Übergang zu einer höheren Auflösung von 1024 × 1024 Pixeln zu ermöglichen. Diese Schichten reduzieren den Rechenaufwand.

Im letzten Schritt wurde das Modell mit einer niedrigen Lernrate und unter Berücksichtigung von menschlichen Präferenzen verfeinert. Dieser gezielte Anpassungsprozess verbessert die Leistung des Modells bei der Erzeugung hochauflösender und vielfältiger Bilder.

Vielversprechende Ergebnisse in Benchmarks und Anwendungen

In verschiedenen Benchmarks, darunter Human Preference Score v2 (HPSv2) und GenEval, zeigte Meissonic trotz seiner vergleichsweise geringen Größe von nur einer Milliarde Parametern eine überlegene Leistung im Vergleich zu anderen führenden Text-zu-Bild-Modellen. Im HPSv2-Benchmark erzielte Meissonic einen Wert von 28,83 und übertraf damit größere Modelle wie SDXL und DeepFloyd-XL.

Serie von KI-Bildern: Feuriges Ende der Welt mit botanischen Illustrationen.
SD 1.5, SD 2.1, DeepFloyd-XL, Deliberate, SDXL 1.0 und Meissonic mit dem Prompt "A graphic poster depicting the fiery end of the world with detailed botanical illustrations and artistic influences". | Bild: Bai et al.
KI-Illustration: Pokémon in Form einer Telefonzelle, populär auf Artstation und Unreal Engine.
SD 1.5, SD 2.1, DeepFloyd-XL, Deliberate, SDXL 1.0 und Meissonic mit dem Prompt "A Pokemon that resembles a phone booth is gaining popularity on Artstation and Unreal Engine". | Bild: Bai et al.

Neben der Bildsynthese ist Meissonic auch in der Lage, Bilder ohne zusätzliches Training oder Fine-Tuning per In- und Outpainting zu bearbeiten. Die Forscher:innen geben in ihrem Paper Beispielbilder, in denen sie Hintergründe oder Stil ändern sowie Objekte entfernen oder hinzufügen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Collage: Meissonic In- und Outpainting-Beispiele, zeigt originale, bearbeitete und erweiterte Bildausschnitte verschiedener Motive.
Die Beispiele veranschaulichen die Leistungsfähigkeit von Meissonic bei In- und Outpainting. Die Methode kann neue Bildbereiche nahtlos ergänzen oder bestehende Bilder kreativ verändern. | Bild: Bai et al.

Die Forschenden sehen in ihrem Ansatz das Potenzial, maßgeschneiderte KI-Modelle schneller und kostengünstiger zu entwickeln. Meissonic könnte auch die Entwicklung lokaler Text-zu-Bild-Anwendungen auf mobilen Geräten vorantreiben.

Hier gab es in der Vergangenheit bereits große Fortschritte von Snap und Google, die bislang jedoch nur wenig Anwendung im Nutzer:innenalltag fanden. Auch wenn generative KI immer mehr auf Android-Smartphones und iPhones Einzug hält und kleine Textmodelle teilweise lokal ausgeführt werden, verlassen sich Google und Apple bei der Bildgeneration vorerst weiter auf die Cloud. Ein Modell wie Meissonic zeigt, dass sich das ändern könnte.

Das Modell lässt sich auf Consumer-GPUs mit 8 GB VRAM ausführen. Eine Demo ist auf Hugging Face verfügbar, der Code auf GitHub.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende von Alibaba, Skywork AI und Universitäten haben mit Meissonic ein Open-Source-Modell entwickelt, das dank einer speziellen Transformer-Architektur und fortschrittlichen Trainingsmethoden hochauflösende Bilder effizient generieren und verarbeiten kann. Es ist so kompakt, dass es auf durchschnittlichen Gaming-PCs und in Zukunft vielleicht sogar auf Smartphones läuft.
  • Meissonic verwendet einen nicht-autoregressiven, maskierten Bildmodellierungsansatz mit multimodalen und monomodalen Transformatorschichten. Dieser Ansatz beschleunigt die Bildsynthese im Vergleich zu herkömmlichen autoregressiven Methoden erheblich. Das Training wurde in vier Schritten mit qualitativ hochwertigen Datensätzen und funktionalen Kompressionsschichten durchgeführt.
  • In Benchmarks wie HPSv2 und GenEval zeigte Meissonic trotz seiner geringen Größe von nur einer Milliarde Parametern eine überlegene Leistung gegenüber anderen führenden Text-zu-Bild-Modellen. Es ist auch in der Lage, Bilder ohne zusätzliches Training durch In- und Outpainting zu verarbeiten.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!