Googles MobileDiffusion erzeugt KI-Bilder auf Mobilgeräten in weniger als einer Sekunde

Googles MobileDiffusion ist eine effiziente Lösung für die Text-zu-Bild-Generierung und ermöglicht eine noch nie dagewesene Geschwindigkeit auf mobilen Geräten.

MobileDiffusion ist die neueste Entwicklung von Google im Bereich der Text-zu-Bild-Generierung. Das Diffusionsmodell wurde speziell für Smartphones entwickelt und soll aus Texteingaben in weniger als einer Sekunde qualitativ hochwertige Bilder erzeugen.

Mit einer Modellgröße von nur 520 Millionen Parametern ist es deutlich kleiner als Modelle mit Milliarden von Parametern wie Stable Diffusion und SDXL und damit besser an die Leistungsfähigkeit mobiler Geräte angepasst.

Tests der Forschenden zeigen, dass MobileDiffusion sowohl auf Android-Smartphones als auch auf iPhones Bilder mit einer Auflösung von 512 x 512 Pixeln in rund einer halben Sekunde liefern kann. Dabei wird das Ergebnis bereits während der Eingabe laufend aktualisiert, wie Demovideos von Google zeigen.

Video: Google

MobileDiffusion besteht aus drei Hauptkomponenten: einem Textencoder, einem Diffusions-UNet und einem Bilddecoder.

Das UNet enthält eine Self-Attention-Schicht, eine Cross-Attention-Schicht sowie eine Feed-Forward-Schicht, die entscheidend für das Textverständnis in Diffusionsmodellen sind.

Diese Schichtenarchitektur ist jedoch rechnerisch aufwendig. Google verfolgt hier die sogenannte UViT-Architektur, bei der mehr Transformer-Blöcke in einem Bereich niedriger Dimensionalität des UNet platziert werden, um den Ressourcenbedarf zu reduzieren.

Hinzu kommen der Einsatz von Destillation und ein Hybrid mit einem Generative Adversarial Network (GAN) für ein- bis achtstufiges Sampling.

Empfehlung

KI-Forschung

Meta-Neurowissenschaftler King: "KI zwingt uns, unsere Intuitionen über Denken zu hinterfragen"

Googles UNet-Architektur enthält mehr Transformatoren in der Mitte und überspringt bei höheren Auflösungen Self-Attention-Schichten. Bild: Google

Google hat das Modell bislang nicht frei zugänglich gemacht und auch keine Pläne dahin gehend geäußert. Vielmehr sei die Forschung als Schritt hin zum "Ziel der Demokratisierung der Text-zu-Bild-Erzeugung auf Mobilgerät" zu verstehen.

Mit der Pixel-Serie betreibt Google seine eigene Smartphone-Familie, in der bei Hard- und Software das Thema generative KI einen immer größeren Fokus einnimmt.

Bildgenerierung wird immer schneller

Zuletzt hatte vor allem Qualcomm auf Basis von Stable Diffusion gezeigt, wie schnell sich Bilder auf einem Smartphone generieren lassen. Durch Optimierungen mit dem AI-Stack von Qualcomm konnte der US-Chiphersteller den Bildgenerator auf einem aktuellen Android-Smartphone ausführen, was zu dem Zeitpunkt im Februar 2023 einen bemerkenswerten technologischen Fortschritt darstellte.

Allerdings dauerte die Erstellung eines Bildes mit 512 x 512 Pixeln und 20 Inferenzschritten damals mit rund 15 Sekunden noch deutlich länger.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Vorteil von Googles MobileDiffusion-Ansatz ist zudem, dass er systemunabhängig auch auf dem aktuellen iPhone 15 Pro schnelle Ergebnisse liefert, die sogar besser sind als auf Samsungs neuestem Flaggschiff Galaxy S24, das mit Googles Android läuft.

Seitdem haben auch SDXL Turbo oder PixArt-δ deutliche Fortschritte im Bereich der Quasi-Echtzeit-Bildgenerierung gemacht, allerdings auf leistungsfähigeren Systemen.

Googles MobileDiffusion erzeugt KI-Bilder auf Mobilgeräten in weniger als einer Sekunde

Meta-Neurowissenschaftler King: "KI zwingt uns, unsere Intuitionen über Denken zu hinterfragen"

Bildgenerierung wird immer schneller

Google startet Doppl: Neue KI-App für virtuelle Outfit-Anproben

Google macht Imagen 4 über Gemini API und AI Studio verfügbar

Google startet Audio-Suche-Chat und AI Audio Overviews

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Googles MobileDiffusion erzeugt KI-Bilder auf Mobilgeräten in weniger als einer Sekunde

Bildgenerierung wird immer schneller

Artikel teilen

Bankverbindung