Google stellt neues Open Source Vision-Sprachmodell PaliGemma 2 vor
Mit PaliGemma 2 veröffentlicht Google die nächste Generation seines Open Source Vision Language Models. Es bietet skalierbare Leistung, verbesserte Bildbeschreibungen und neue Anwendungsmöglichkeiten.
PaliGemma 2 kombiniert den SigLIP-So400m Vision Encoder mit der gesamten Palette der Gemma 2 Sprachmodelle (2B bis 27B). Zu den Neuerungen von PaliGemma 2 gehören laut Google verschiedene Modellgrößen (3B, 10B, 28B Parameter) und Auflösungen (224px, 448px, 896px), die eine skalierbare Leistung für verschiedene Aufgaben ermöglichen.
Das Modell generiert detaillierte Bildbeschreibungen, die über die reine Objekterkennung hinausgehen und Handlungen, Emotionen und den narrativen Kontext einer Szene erfassen.

Eine der Hauptneuerungen ist laut Google die Fähigkeit, detaillierte und kontextrelevante Bildbeschreibungen zu generieren. Das Modell gehe dabei über die reine Objekterkennung hinaus und könne auch Handlungen, Emotionen und narrative Zusammenhänge in Szenen beschreiben.
Breites Anwendungsspektrum
Wie aus dem technischen Bericht hervorgeht, zeigt PaliGemma 2 gute Leistungen in verschiedenen Bereichen: von der Erkennung chemischer Formeln über die Interpretation von Musikpartituren bis hin zur Analyse von Röntgenbildern und räumlichem Denken.

Für bestehende PaliGemma-Nutzer ist die Umstellung auf PaliGemma 2 laut Google einfach, da es als direkter Ersatz konzipiert ist. Das Modell bietet laut Google Leistungssteigerungen bei den meisten Aufgaben ohne größere Codeänderungen. Die Feinabstimmung für spezifische Aufgaben und Datensätze sei unkompliziert.
Die Modelle und der zugehörige Code sind auf den Plattformen Hugging Face und Kaggle verfügbar. Google stellt außerdem umfangreiche Dokumentationen und Beispiel-Notebooks zur Verfügung. Das Modell unterstützt verschiedene Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp.
Googles Gemma-Reihe bietet bereits eine Reihe an Open-Source-Modellen. Die Familie wurde kürzlich um neue Modelle für Code-Vervollständigung und effizientere Inferenz erweitert. Ende Oktober stellte Google ein für Japanisch optimiertes Gemma-Modell vor, das trotz nur zwei Milliarden Parametern eine Leistung auf GPT-3.5-Niveau für japanischsprachige Aufgaben erreicht.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.