Inhalt
summary Zusammenfassung

Google stellt mit Gemma 3n ein multimodales KI-Modell vor, das speziell für mobile Endgeräte entwickelt wurde.

Anzeige

Gemma 3n unterstützt Bild-, Audio-, Video- und Texteingaben nativ. Die Textausgabe erfolgt in bis zu 140 Sprachen, während multimodale Aufgaben in 35 Sprachen verarbeitet werden können. Zwei Modellgrößen stehen zur Verfügung: E2B mit 5 Milliarden und E4B mit 8 Milliarden Parametern. Beide Modelle benötigen dank architektonischer Optimierungen nur 2 GB (E2B) bzw. 3 GB (E4B) Arbeitsspeicher, sind aber in unterschiedlichen Quantisierungen und damit Größen verfügbar.

Im Zentrum von Gemma 3n steht die sogenannte MatFormer-Architektur, ein verschachtelter Transformer-Ansatz, der laut Google vom Konzept der Matroschka-Puppen inspiriert ist. Innerhalb des größeren E4B-Modells ist so ein vollständig funktionsfähiges E2B-Modell enthalten. Entwicklerinnen und Entwickler können beide Varianten direkt nutzen oder mit der Mix-n-Match-Methode eigene Modellgrößen generieren. Dabei lassen sich Layer gezielt deaktivieren und die Feedforward-Dimension anpassen.

Die MatFormer-Architektur soll perspektivisch auch eine dynamische Umschaltung zwischen Modellgrößen zur Laufzeit ermöglichen, um Leistung und Speicherverbrauch an die jeweilige Gerätesituation anzupassen.

Anzeige
Anzeige

Ein weiteres Merkmal von Gemma 3n ist der Einsatz von Per-Layer Embeddings (PLE). Diese Technik erlaubt es, die Einbettungen pro Layer auf der CPU zu berechnen, während nur die Kerngewichte auf der GPU oder TPU verbleiben. Dadurch reduziert sich der Speicherbedarf auf dem Accelerator auf etwa 2 Milliarden (E2B) bzw. 4 Milliarden (E4B) Parameter.

Audio und Vision: Echtzeitverarbeitung auf mobilen Geräten

Gemma 3n verarbeitet Audiodaten mit einem Encoder, der auf Googles Universal Speech Model (USM) basiert. Alle 160 Millisekunden wird ein Abschnitt des Audiosignals in ein einzelnes Token umgewandelt. Damit sind Anwendungen wie automatische Spracherkennung (ASR) und Sprachübersetzung (AST) direkt auf dem Gerät möglich, zum Beispiel für Übersetzungen zwischen Englisch und verschiedenen romanischen Sprachen. Die maximale Länge eines Audioclips beträgt aktuell 30 Sekunden, kann aber durch weiteres Training verlängert werden.

Für Bild- und Videoverarbeitung nutzt Gemma 3n den neuen MobileNet-V5-300M-Encoder. Dieser erkennt laut Google verschiedene Bildauflösungen bis zu 768x768 Pixel und soll auf einem Google Pixel Smartphone bis zu 60 Bilder pro Sekunde analysieren können. Die hohe Geschwindigkeit und Effizienz werden durch eine optimierte Architektur erreicht, die auf den Vorgängermodellen MobileNet-V4 aufbaut, aber deutlich größer und leistungsfähiger ist. Im Vergleich zur bisherigen Architektur soll MobileNet-V5 mit Quantisierung 13-mal schneller sein, und fast die Hälfte der Parameter und nur ein Viertel des Speichers benötigen.

Benchmark-Erfolge und offene Nutzung

Das E4B-Modell erreicht über 1300 Punkte im LMArena-Benchmark – ein neuer Höchstwert für Modelle unter 10 Milliarden Parametern. Auch die mit Mix-n-Match erzeugten Zwischenstufen zeigen laut Google gute Leistung bei Benchmarks wie MMLU. Ein kurzer Test des Programmierers Simon Willison zeigt allerdings, dass es deutliche Unterschiede zwischen den verschiedenen Quantisierungen gibt.

Begleitend zur Veröffentlichung startet Google die Gemma 3n Impact Challenge. Gesucht werden Anwendungen, die die multimodalen und offline-fähigen Funktionen des Modells nutzen, um konkrete gesellschaftliche Probleme zu lösen. Insgesamt sind Preisgelder von 150.000 US-Dollar ausgelobt.

Empfehlung

Gemma 3n steht ab sofort auf Plattformen wie Hugging Face und Kaggle zum Download bereit und ist mit gängigen Entwicklungstools wie Hugging Face Transformers, llama.cpp, Docker und MLX kompatibel. Die Modelle können über Google AI Studio, Cloud Run oder Vertex AI direkt eingesetzt werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google stellt mit Gemma 3n ein multimodales KI-Modell für mobile Geräte vor, das Bild-, Audio-, Video- und Texteingaben in bis zu 140 Sprachen unterstützt und schon mit wenig Speicher funktioniert.
  • Die MatFormer-Architektur ermöglicht flexible Modellgrößen und Per-Layer Embeddings reduzieren den Speicherbedarf. Auf einem Google Pixel Smartphone kann Gemma 3n bis zu 60 Bilder pro Sekunde analysieren.
  • Gemma 3n erreicht Bestwerte in Benchmarks unter 10 Milliarden Parametern und ist offen auf Plattformen wie Hugging Face und Kaggle verfügbar.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!