Inhalt
summary Zusammenfassung

Googles MobileDiffusion ist eine effiziente Lösung für die Text-zu-Bild-Generierung und ermöglicht eine noch nie dagewesene Geschwindigkeit auf mobilen Geräten.

Anzeige

MobileDiffusion ist die neueste Entwicklung von Google im Bereich der Text-zu-Bild-Generierung. Das Diffusionsmodell wurde speziell für Smartphones entwickelt und soll aus Texteingaben in weniger als einer Sekunde qualitativ hochwertige Bilder erzeugen.

Mit einer Modellgröße von nur 520 Millionen Parametern ist es deutlich kleiner als Modelle mit Milliarden von Parametern wie Stable Diffusion und SDXL und damit besser an die Leistungsfähigkeit mobiler Geräte angepasst.

Tests der Forschenden zeigen, dass MobileDiffusion sowohl auf Android-Smartphones als auch auf iPhones Bilder mit einer Auflösung von 512 x 512 Pixeln in rund einer halben Sekunde liefern kann. Dabei wird das Ergebnis bereits während der Eingabe laufend aktualisiert, wie Demovideos von Google zeigen.

Anzeige
Anzeige

Video: Google

MobileDiffusion besteht aus drei Hauptkomponenten: einem Textencoder, einem Diffusions-UNet und einem Bilddecoder.

Das UNet enthält eine Self-Attention-Schicht, eine Cross-Attention-Schicht sowie eine Feed-Forward-Schicht, die entscheidend für das Textverständnis in Diffusionsmodellen sind.

Diese Schichtenarchitektur ist jedoch rechnerisch aufwendig. Google verfolgt hier die sogenannte UViT-Architektur, bei der mehr Transformer-Blöcke in einem Bereich niedriger Dimensionalität des UNet platziert werden, um den Ressourcenbedarf zu reduzieren.

Hinzu kommen der Einsatz von Destillation und ein Hybrid mit einem Generative Adversarial Network (GAN) für ein- bis achtstufiges Sampling.

Empfehlung
Googles UNet-Architektur enthält mehr Transformatoren in der Mitte und überspringt bei höheren Auflösungen Self-Attention-Schichten. Bild: Google

Google hat das Modell bislang nicht frei zugänglich gemacht und auch keine Pläne dahin gehend geäußert. Vielmehr sei die Forschung als Schritt hin zum "Ziel der Demokratisierung der Text-zu-Bild-Erzeugung auf Mobilgerät" zu verstehen.

Mit der Pixel-Serie betreibt Google seine eigene Smartphone-Familie, in der bei Hard- und Software das Thema generative KI einen immer größeren Fokus einnimmt.

Bildgenerierung wird immer schneller

Zuletzt hatte vor allem Qualcomm auf Basis von Stable Diffusion gezeigt, wie schnell sich Bilder auf einem Smartphone generieren lassen. Durch Optimierungen mit dem AI-Stack von Qualcomm konnte der US-Chiphersteller den Bildgenerator auf einem aktuellen Android-Smartphone ausführen, was zu dem Zeitpunkt im Februar 2023 einen bemerkenswerten technologischen Fortschritt darstellte.

Bild: Google

Allerdings dauerte die Erstellung eines Bildes mit 512 x 512 Pixeln und 20 Inferenzschritten damals mit rund 15 Sekunden noch deutlich länger.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Vorteil von Googles MobileDiffusion-Ansatz ist zudem, dass er systemunabhängig auch auf dem aktuellen iPhone 15 Pro schnelle Ergebnisse liefert, die sogar besser sind als auf Samsungs neuestem Flaggschiff Galaxy S24, das mit Googles Android läuft.

Seitdem haben auch SDXL Turbo oder PixArt-δ deutliche Fortschritte im Bereich der Quasi-Echtzeit-Bildgenerierung gemacht, allerdings auf leistungsfähigeren Systemen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google entwickelt MobileDiffusion, ein effizientes Text-Bild-Generierungsmodell, das qualitativ hochwertige Bilder in weniger als einer Sekunde auf Smartphones erzeugen kann
  • Mit einer Modellgröße von 520 Millionen Parametern ist es sehr kompakt und daher besser für mobile Geräte geeignet; Tests zeigen schnelle Ergebnisse auf Android- und iPhone-Geräten
  • MobileDiffusion verwendet eine UNet-Architektur mit einem Textkodierer, einem Diffusions-UNet und einem Bilddekodierer, um den Ressourcenbedarf zu reduzieren und eine schnelle Bildgenerierung zu ermöglichen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!