Forscher haben einen KI-Bildgenerator entwickelt, der hochauflösende Bilder auf dem Smartphone erzeugen kann. Das Modell ist dabei deutlich kleiner als vergleichbare Systeme.
Hinter der Arbeit steht unter anderem Snap Inc, das Unternehmen hinter Snapchat. Der daraus entstandene KI-Bildgenerator "SnapGen" kann hochauflösende Bilder in Sekundenschnelle direkt auf einem leistungsstarken Smartphone erzeugen.
Der entscheidende Durchbruch liegt in der drastischen Verkleinerung des KI-Modells. Während etablierte Systeme wie SDXL mit 2,6 Milliarden Parametern arbeiten, kommt SnapGen mit nur 379 Millionen aus - ist also rund siebenmal kleiner. Damit ist es noch einmal deutlich kleiner als das ebenfalls winzige PixArt-⍺ von Huawei, das ebenfalls für Smartphones optimiert ist.
Effizienz angeblich ohne Qualitätsverlust
Laut Snap geht die Verkleinerung dabei nicht zulasten der Bildqualität. In Benchmark-Tests übertraf das kompakte Modell sogar deutlich größere Systeme. Auf dem GenEval-Benchmark, der die Text-Bild-Übereinstimmung misst, erreichte SnapGen einen Wert von 0,66 - deutlich besser als SDXL mit 0,55.
Auch bei der Geschwindigkeit setzt das System neue Maßstäbe: Während bisherige Modelle für die Bildgenerierung auf dem Smartphone zu langsam oder zu groß waren, benötigt SnapGen auf einem iPhone 16 Pro Max nur etwa 1,4 Sekunden für ein hochauflösendes 1024×1024 Pixel Bild.
Das Team gibt an, diese Verbesserungen durch eine „systematische Untersuchung der Design-Entscheidungen der Netzwerkarchitektur zur Reduzierung der Modellparameter und der Latenz bei gleichzeitiger Sicherstellung einer qualitativ hochwertigen Generierung“ erreicht zu haben. Außerdem hat es den Decoder - den Teil, der die Ausgabe der KI in fertige Bilder umwandelt - so optimiert, dass er 36 Mal kleiner ist als ähnliche Systeme.
Damit ihr kleineres Modell genauso gut funktioniert wie die größeren, ließen die Forscher ihr Modell von größeren KI-Systemen wie SD3 und SD3.5 sowie einer Few-Step-Version von SD3.5 (SD3.5-Large-Turbo) lernen, um die Bilderzeugung zu verbessern und zu beschleunigen. Zudem entwickelten die Forscher einen speziellen Trainingsprozess, der erkennt, wenn bestimmte Aufgaben für das kleinere Modell schwieriger zu erlernen sind und den Lernprozess entsprechend anpasst.