Gemma 4 ausprobieren: Googles neue KI läuft direkt auf dem Handy

11. April 2026

Screenshots by THE DECODER

Kurz & Knapp

Googles Open-Source-Modell Gemma 4 verarbeitet Text, Bilder und Audio komplett lokal auf dem Smartphone und kann über sogenannte Agent-Skills eigenständig Werkzeuge wie Wikipedia, interaktive Karten oder QR-Code-Generatoren nutzen.
Die Smartphone-Varianten E2B und E4B laufen bereits auf Geräten mit 6 bzw. 8 GB RAM, sind laut Google bis zu viermal schneller als die Vorgängergeneration und bilden die Grundlage für das kommende Gemini Nano 4 auf Android.
Für Entwickler stehen alle Modelle unter der kommerziell nutzbaren Apache-2.0-Lizenz, eigene Skills lassen sich über GitHub erstellen und teilen. Die kostenlose App "Google AI Edge Gallery" ist für Android und iOS verfügbar.

Googles neues Open-Source-Modell Gemma 4 verarbeitet Text, Bilder und Audio komplett lokal auf dem Smartphone. Über sogenannte Agent Skills kann die KI sogar eigenständig Werkzeuge wie Wikipedia oder interaktive Karten nutzen.

Die dafür nötige App "Google AI Edge Gallery" ist für Android und iOS kostenlos verfügbar und nach dem Release von Gemma 4 im iOS App Store auf Platz 4 der meistgeladenen kostenlosen Produktivitäts-Apps geklettert, knapp hinter Claude, Gemini und ChatGPT.

Gemma 4 basiert auf derselben Forschung wie Googles proprietäres Gemini-3-Modell, steht aber unter der kommerziell nutzbaren Apache-2.0-Lizenz. Seit dem Start der ersten Generation wurde die Gemma-Familie laut Google über 400 Millionen Mal heruntergeladen. Alle Modelle verarbeiten Text, Bilder und Audio und unterstützen mehr als 140 Sprachen.

Vier Varianten für unterschiedliche Hardware

Alle Modelle verarbeiten Text, Bilder und Audio und unterstützen mehr als 140 Sprachen. In der jüngsten Version gibt es vier Varianten: E2B und E4B sind speziell für Smartphones optimiert. Das "E" steht für "effektive Parameter", also die Zahl der Parameter, die bei der Berechnung tatsächlich aktiv sind. In quantisierter Form belegt das E2B-Modell rund 1,3 GB Speicher auf dem Gerät, das E4B rund 2,5 GB.

Die größeren Varianten 26B und 31B richten sich an Server und leistungsstarke Computer: Die 26B-Variante nutzt eine Mixture-of-Experts-Architektur mit 128 Experten, wodurch nur 3,8 Milliarden Parameter gleichzeitig aktiv sind. Das dichte 31B-Modell bietet ein Kontextfenster von bis zu 256.000 Token.

Google hat die Smartphone-Varianten zudem in Zusammenarbeit mit Arm und Qualcomm für aktuelle Mobilprozessoren optimiert. Laut Google ist Gemma 4 auf Android bis zu viermal schneller als die Vorgängergeneration und verbraucht dabei bis zu 60 Prozent weniger Akku. Arm kommt in eigenen Tests sogar auf eine im Schnitt 5,5-fach schnellere Verarbeitung von Eingaben – vorausgesetzt, das Gerät nutzt einen neueren Arm-Prozessor mit dem Befehlssatz SME2, einer Erweiterung, die Matrixberechnungen für KI-Modelle direkt im Chip beschleunigt.

Was die App auf dem Smartphone kann

Voraussetzung sind Android 12 oder iOS 17. Beim Arbeitsspeicher unterscheiden sich die beiden Smartphone-Varianten: Das kleinere E2B-Modell belegt quantisiert nur rund 1,3 GB und läuft auf Geräten mit 6 GB RAM, das größere E4B benötigt rund 2,5 GB Modellspeicher und setzt mindestens 8 GB voraus.

Zwei iPhone-Screenshots der Google AI Edge Gallery App. Links die Skill-Verwaltung mit aktivierbaren Skills wie interactive-map, kitchen-adventure, calculate-hash und text-spinner. Rechts ein Chat mit dem Gemma-4-E2B-Modell, das per Agent Skill einen QR-Code generiert hat. — Die Agent-Skills lassen sich einzeln aktivieren und verwalten. Rechts generiert Gemma 4 per JavaScript-Skill einen QR-Code direkt auf dem Gerät.

Neben Chat, Bilderkennung und Audiotranskription bietet die App sogenannte "Agent Skills": Wikipedia-Suche, interaktive Karten, automatisch erstellte Zusammenfassungen und Lernkarten. Gemma 4 kann außerdem Fotos beschreiben, gesprochene Eingaben in Diagramme und Visualisierungen umwandeln und sogar mit anderen lokalen Modellen zusammenarbeiten, etwa für Text-to-Speech oder Bildgenerierung. Google demonstriert das mit einem Beispiel-Skill, der Tierrufe beschreibt und abspielt.

Die Bilderkennung profitiert laut Google ebenfalls von der neuen Generation: Anwendungen mit OCR, also das Erkennen von Text in Bildern, Diagrammen oder Handschrift, liefern nun genauere Ergebnisse. Auch das Verständnis von Zeitangaben wurde verbessert, was für Kalender, Erinnerungen und Wecker relevant ist.

Zwei iPhone-Screenshots der Google AI Edge Gallery App. Links ein Chat mit dem Gemma-4-E2B-Modell, das auf eine Texteingabe hin den JS-Skill "mood-tracker" aufruft und ein interaktives Dashboard anzeigt. Rechts die Vollansicht des Mood Trackers mit einem Score von 9, einem Trend-Diagramm und der Notiz "Great time playing pickleball again". — Gemma 4 erkennt die Absicht hinter der Eingabe und ruft eigenständig den passenden Skill auf – hier einen Mood Tracker mit Verlaufsdiagramm.

Die einzelnen Funktionen sind für sich genommen im Vergleich zu Cloud-Anbietern nichts Besonderes, bemerkenswert ist aber, dass eine Demo-App mit einem rein lokalen Modell auf dem Smartphone diese Werkzeuge nun eigenständig nutzen kann. Entwickler können über GitHub zudem eigene Skills erstellen und mit der Community teilen. Für die eingebauten Werkzeuge ist zwar eine Internetverbindung nötig, das Modell selbst läuft aber weiterhin lokal. Chats werden nicht gespeichert.

Grundlage für die nächste Generation von Gemini Nano

Gemma 4 E2B und E4B bilden laut Google die Basis für Gemini Nano 4, die nächste Generation des systemweiten On-Device-Modells auf Android. Code, der heute für Gemma 4 geschrieben wird, soll automatisch mit Gemini Nano 4 kompatibel sein, wenn dieses später im Jahr auf neuen Flagship-Geräten erscheint. Gemini Nano läuft bereits jetzt auf über 140 Millionen Android-Geräten und wird dort unter anderem für Smart Replies und Audio-Zusammenfassungen eingesetzt.

Mit FunctionGemma hatte Google bereits im Dezember gezeigt, wie ein kleines lokales Modell mit nur 270 Millionen Parametern auf dem Smartphone Befehle an andere Apps weitergeben kann. Das Modell übersetzt dabei natürliche Sprache in strukturierte Funktionsaufrufe und kann so etwa die Taschenlampe ein- und ausschalten, einen neuen Kontakt erstellen, E-Mails senden, Kalendereinträge anlegen, Standorte auf der Karte anzeigen oder die WLAN-Einstellungen öffnen.

Wie wichtig lokale KI-Fähigkeiten auf dem Smartphone inzwischen auch strategisch sind, zeigt der milliardenschwere Deal zwischen Apple und Google: Seit Januar steht fest, dass die nächste Generation von Apples Foundation Models auf Googles Gemini-Technologie basieren wird und im Laufe des Jahres ein umfassendes Siri-Upgrade antreiben soll.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Google