Anzeige
Skip to content

Snap entwickelt Smartphone-tauglichen KI-Bildgenerator mit hoher Auflösung

Image description
Snap Inc.

Forscher haben einen KI-Bildgenerator entwickelt, der hochauflösende Bilder auf dem Smartphone erzeugen kann. Das Modell ist dabei deutlich kleiner als vergleichbare Systeme.

Hinter der Arbeit steht unter anderem Snap Inc, das Unternehmen hinter Snapchat. Der daraus entstandene KI-Bildgenerator "SnapGen" kann hochauflösende Bilder in Sekundenschnelle direkt auf einem leistungsstarken Smartphone erzeugen.

Der entscheidende Durchbruch liegt in der drastischen Verkleinerung des KI-Modells. Während etablierte Systeme wie SDXL mit 2,6 Milliarden Parametern arbeiten, kommt SnapGen mit nur 379 Millionen aus - ist also rund siebenmal kleiner. Damit ist es noch einmal deutlich kleiner als das ebenfalls winzige PixArt-⍺ von Huawei, das ebenfalls für Smartphones optimiert ist.

Effizienz angeblich ohne Qualitätsverlust

Laut Snap geht die Verkleinerung dabei nicht zulasten der Bildqualität. In Benchmark-Tests übertraf das kompakte Modell sogar deutlich größere Systeme. Auf dem GenEval-Benchmark, der die Text-Bild-Übereinstimmung misst, erreichte SnapGen einen Wert von 0,66 - deutlich besser als SDXL mit 0,55.

Anzeige
DEC_D_Incontent-1

Vergleichsgalerie verschiedener KI-Modelle mit sieben Bildprompts, SnapGen-Ergebnisse (erste Spalte) zeigen hohe Qualität trotz kompakter Modellgröße.
SnapGens kompaktes KI-Modell demonstriert gute Ergebnisse im Vergleich zu deutlich größeren Modellen wie SDXL oder Playground v2. | Bild: Chen et al.

Auch bei der Geschwindigkeit setzt das System neue Maßstäbe: Während bisherige Modelle für die Bildgenerierung auf dem Smartphone zu langsam oder zu groß waren, benötigt SnapGen auf einem iPhone 16 Pro Max nur etwa 1,4 Sekunden für ein hochauflösendes 1024×1024 Pixel Bild.

Eine Demo-App für iOS demonstriert die Leistungsfähigkeit des Systems in der Praxis. | Video: Snap Inc.

Das Team gibt an, diese Verbesserungen durch eine „systematische Untersuchung der Design-Entscheidungen der Netzwerkarchitektur zur Reduzierung der Modellparameter und der Latenz bei gleichzeitiger Sicherstellung einer qualitativ hochwertigen Generierung“ erreicht zu haben. Außerdem hat es den Decoder - den Teil, der die Ausgabe der KI in fertige Bilder umwandelt - so optimiert, dass er 36 Mal kleiner ist als ähnliche Systeme.

Damit ihr kleineres Modell genauso gut funktioniert wie die größeren, ließen die Forscher ihr Modell von größeren KI-Systemen wie SD3 und SD3.5 sowie einer Few-Step-Version von SD3.5 (SD3.5-Large-Turbo) lernen, um die Bilderzeugung zu verbessern und zu beschleunigen. Zudem entwickelten die Forscher einen speziellen Trainingsprozess, der erkennt, wenn bestimmte Aufgaben für das kleinere Modell schwieriger zu erlernen sind und den Lernprozess entsprechend anpasst.

Anzeige
DEC_D_Incontent-2

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren