KI-Forschung

Neue Methode generiert KI-Bilder auf dem Smartphone in unter 2 Sekunden

Jonathan Kemper
KI-Bild eines Smartphones in einer linken Hand aus Sicht des Nutzers.

Midjourney prompted by THE DECODER

Forschende bei Snapchat haben eine neue Methode für KI-Bilder auf dem Smartphone entwickelt. Damit sollen Nutzer:innen auf die sonst notwendige leistungsfähige Hardware verzichten können und höheren Datenschutz haben.

Neue Versionen der Bild-KIs aus den letzten Monaten, etwa Midjourney 5.1, Stable Diffusion XL oder auch Adobe Firefly, haben die Qualität generierter Grafiken auf ein neues Level gehoben.

Allerdings haben diese Modelle auch unbestreitbare Nachteile: Sie sind sehr groß und haben komplexe Netzwerkarchitekturen, was sie rechenintensiv und damit langsam macht. Um diese Modelle in großem Maßstab ausführen zu können, sind High-End-GPUs und Cloud-Inferenz erforderlich, was teuer ist und Datenschutzprobleme aufwirft.

Forscher:innen des Snapchat-Mutterkonzerns Snap Inc. sowie der Northeastern University zeigen nun SnapFusion. Mit diesem Modell soll es erstmals möglich sein, Diffusionsmodelle auf einem Smartphone in weniger als zwei Sekunden auszuführen.

Bild: Li et al.

Zwar hat der Chip-Hersteller Qualcomm im Februar gezeigt, dass er KI-Bilder auf einem Smartphone in weniger als 15 Sekunden erzeugen kann, doch SnapFusion läuft zumindest auf dem iPhone 14 Pro deutlich schneller.

Bilder auf Niveau von Stable Diffusion v1.5

Durch die Einführung einer effizienteren Netzwerkarchitektur und weniger Inferenzschritte ist SnapFusion in der Lage, aus einem Textprompt in kurzer Zeit ein Bild mit einer Auflösung von 512 x 512 Pixeln zu erzeugen, das nach Angaben des Teams an die Qualität von Stable Diffusion v1.5 heranreicht. Dazu benötigt SnapFusion nur acht Denoising-Schritte, während die Methode von Qualcomm 20 Schritte benötigt.

Ein Demovideo der Wissenschaftler:innen zeigt SnapFusion im Einsatz auf dem derzeit leistungsstärksten Apple-Smartphone, einem iPhone 14 Pro. Die Methode von Qualcomm war bisher nur mit dem neuesten High-End-Chip, dem Snapdragon 8 Gen 2, möglich.

Bild-KIs demokratisieren

"Unsere Arbeit demokratisiert die Erstellung von Inhalten, indem wir den Nutzenden leistungsfähige Text-Bild-Diffusionsmodelle an die Hand geben", schreibt das Forschungsteam.

Perfekt ist Snapfusion aber noch lange nicht: Den Wissenschaftler:innen zufolge hat das Modell immer noch eine relativ große Anzahl von Parametern. Außerdem müsse die Technologie auf mehr Smartphones als nur dem iPhone 14 Pro laufen, um sie einer breiteren Masse zugänglich zu machen.

Snapchat hat bereits Erfahrungen mit generativer KI gemacht, allerdings eher im Textbereich mit dem persönlichen Chatbot "My AI".

Quellen: