Inhalt
summary Zusammenfassung

Googles neues Text-zu-Bild-Modell "Muse" generiert hochwertige Bilder in Rekordtempo. Sie soll zudem Texte und Konzepte in Bildern verlässlicher darstellen können.

Anzeige

Forschende von Google Research stellen "Muse" vor, eine Transformer-basierte generative Bild-KI, die Bilder auf dem Niveau aktueller Modelle generiert, dabei aber "signifikant effizienter" sein soll als existierende Diffusion-Modelle wie Stable Diffusion und DALL-E 2 oder autoregressive Modelle wie Google Parti.

Ähnliche Qualität, aber viel schneller

Muse erzielt bei Benchmarks zu Qualität, Diversität und Text-treue der generierten Bilder Ergebnisse auf Augenhöhe mit Stable Diffusion 1.4 und der internen Google-Konkurrenz Parti-3B und Imagen.

Vergleich von Prompts und den generierten Bildern zwischen Muse, Imagen und DALL-E 2. | Bild: Google Research

Allerdings ist Muse dabei signifikant schneller. Die Bild-KI übertrifft mit 1,3 Sekunden Generierungszeit pro Bild (512 x 512) die bis dato schnellste Bild-KI Stable Diffusion 1.4 mit 3,7 Sekunden deutlich.

Anzeige
Anzeige
Googles Bild-KI Muse soll bei gleicher Qualität KI-Bilder deutlich schneller generieren als existierende Systeme. | Bild: Google Research

Den Geschwindigkeitsvorsprung erzielte das Team durch einen komprimierten, diskreten latenten Raum und eine parallele Dekodierung. Das Team verwendet ein eingefrorenes T5-Sprachmodell, das auf Text-zu-Text-Aufgaben vortrainiert ist. Laut des Teams verarbeitet Muse einen Text-Prompt vollständig, anstatt sich nur auf besonders hervorstechende Wörter zu fokussieren.

Im Vergleich zu Pixelraum-Diffusionsmodellen wie Imagen und DALL-E 2 ist Muse aufgrund der Verwendung diskreter Token und der geringeren Anzahl von Abtastiterationen wesentlich effizienter; im Vergleich zu autoregressiven Modellen wie Parti ist Muse aufgrund der parallelen Decodierung effizienter.

Aus dem Paper

Die neue Architektur ermöglicht zudem eine Reihe an Bildberarbeitungsanwendungen ohne zusätzliches Fein-Tuning oder Umkehrung des Modells. Innerhalb eines Bildes können Objekte allein per Textbefehl ohne Maskierung ausgetauscht oder verändert werden.

Die Bildbearbeitungsmodi von Muse, die das Modell ohne spezielles Fein-Tuning ermöglicht. | Bild: Google Research

Bei einer Bewertung durch menschliche Tester:innen wurden die Bilder von Muse in rund 70 Prozent der Fälle als besser zur Texteingabe passend bewertet als jene von Stable Diffusion 1.4.

Bei menschlichen Bewertungen schnitt Muse besser ab als Stable Diffusion 1.4. | Bild: Google Research

Muse soll zudem überdurchschnittlich gut vorgegebene Wörter in Bilder integrieren können, etwa ein T-Shirt mit dem Schriftzug "Carpe Diem". Bei der Komposition soll Muse ebenfalls präzise sein, stellt also im Prompt vorgegebene Bildelemente in genauer(er) Anzahl, Position und Farbe dar. Das klappt bei derzeit gängigen Bild-KI-Systemen häufig nicht.

Überblick über die qualitativen Vorteile von Muse. | Bild: Google Research

Weitere Bild-Beispiele gibt es auf der Projektwebseite. Zu einer möglichen Veröffentlichung des Bildmodells, um mit OpenAIs DALL-E 2 oder Midjourney in den Wettstreit zu gehen, äußern sich die Forschenden und Google direkt bislang nicht. Derzeit ist nur Googles Bildmodell Imagen in einer stark eingeschränkten Beta in den USA verfügbar.

Empfehlung

Das Muse-Team warnt, wie es mittlerweile üblich ist in wissenschaftlichen Papieren zu Sprach- und Bild-KI-Systemen, vor einem möglichen "Schadenspotenzial" je nach Anwendungsfall, etwa die Wiedergabe von sozialen Vorurteilen oder Falschinformationen. Deswegen verzichte es auf eine Veröffentlichung des Codes und eine öffentlich zugängliche Demo. Das Team hebt insbesondere das Risiko bei der Verwendung von Bild-KI-Modellen für die Generierung von Personen, Menschen und Gesichtern hervor.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Muse ist ein neues Bild-KI-Modell von Google mit einer alternativen Architektur im Vergleich zu gängigen Systemen.
  • Es kann KI-Bilder besonders schnell generieren: Pro Bild braucht es nur rund 1,8 Sekunden.
  • Qualitativ ist es auf Augenhöhe mit existierenden Modellen, soll aber Konzepte wie aufeinandergestapelte Objekte oder Text im Bild verlässlicher rendern können.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!