Google stellt neues Open Source Vision-Sprachmodell PaliGemma 2 vor
Kurz & Knapp
- Google stellt mit PaliGemma 2 die nächste Generation seines Open Source Vision Language Models vor, das laut Google skalierbare Leistung für verschiedene Aufgaben, verbesserte Bildbeschreibungen und ein breites Anwendungsspektrum bietet.
- PaliGemma 2 kombiniert den SigLIP-So400m Vision Encoder mit den Gemma 2 Sprachmodellen. Es kann neben Objekten auch Handlungen, Emotionen und narrative Zusammenhänge in Bildern erkennen.
- Das Modell zeigt laut Google Spitzenleistungen in diversen Bereichen wie der Erkennung chemischer Formeln, Interpretation von Musikpartituren und Analyse von Röntgenbildern.
Mit PaliGemma 2 veröffentlicht Google die nächste Generation seines Open Source Vision Language Models. Es bietet skalierbare Leistung, verbesserte Bildbeschreibungen und neue Anwendungsmöglichkeiten.
PaliGemma 2 kombiniert den SigLIP-So400m Vision Encoder mit der gesamten Palette der Gemma 2 Sprachmodelle (2B bis 27B). Zu den Neuerungen von PaliGemma 2 gehören laut Google verschiedene Modellgrößen (3B, 10B, 28B Parameter) und Auflösungen (224px, 448px, 896px), die eine skalierbare Leistung für verschiedene Aufgaben ermöglichen.
Das Modell generiert detaillierte Bildbeschreibungen, die über die reine Objekterkennung hinausgehen und Handlungen, Emotionen und den narrativen Kontext einer Szene erfassen.

Eine der Hauptneuerungen ist laut Google die Fähigkeit, detaillierte und kontextrelevante Bildbeschreibungen zu generieren. Das Modell gehe dabei über die reine Objekterkennung hinaus und könne auch Handlungen, Emotionen und narrative Zusammenhänge in Szenen beschreiben.
Breites Anwendungsspektrum
Wie aus dem technischen Bericht hervorgeht, zeigt PaliGemma 2 gute Leistungen in verschiedenen Bereichen: von der Erkennung chemischer Formeln über die Interpretation von Musikpartituren bis hin zur Analyse von Röntgenbildern und räumlichem Denken.

Für bestehende PaliGemma-Nutzer ist die Umstellung auf PaliGemma 2 laut Google einfach, da es als direkter Ersatz konzipiert ist. Das Modell bietet laut Google Leistungssteigerungen bei den meisten Aufgaben ohne größere Codeänderungen. Die Feinabstimmung für spezifische Aufgaben und Datensätze sei unkompliziert.
Die Modelle und der zugehörige Code sind auf den Plattformen Hugging Face und Kaggle verfügbar. Google stellt außerdem umfangreiche Dokumentationen und Beispiel-Notebooks zur Verfügung. Das Modell unterstützt verschiedene Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp.
Googles Gemma-Reihe bietet bereits eine Reihe an Open-Source-Modellen. Die Familie wurde kürzlich um neue Modelle für Code-Vervollständigung und effizientere Inferenz erweitert. Ende Oktober stellte Google ein für Japanisch optimiertes Gemma-Modell vor, das trotz nur zwei Milliarden Parametern eine Leistung auf GPT-3.5-Niveau für japanischsprachige Aufgaben erreicht.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.