Mit PaliGemma 2 veröffentlicht Google die nächste Generation seines Open Source Vision Language Models. Es bietet skalierbare Leistung, verbesserte Bildbeschreibungen und neue Anwendungsmöglichkeiten.
PaliGemma 2 kombiniert den SigLIP-So400m Vision Encoder mit der gesamten Palette der Gemma 2 Sprachmodelle (2B bis 27B). Zu den Neuerungen von PaliGemma 2 gehören laut Google verschiedene Modellgrößen (3B, 10B, 28B Parameter) und Auflösungen (224px, 448px, 896px), die eine skalierbare Leistung für verschiedene Aufgaben ermöglichen.
Das Modell generiert detaillierte Bildbeschreibungen, die über die reine Objekterkennung hinausgehen und Handlungen, Emotionen und den narrativen Kontext einer Szene erfassen.
Eine der Hauptneuerungen ist laut Google die Fähigkeit, detaillierte und kontextrelevante Bildbeschreibungen zu generieren. Das Modell gehe dabei über die reine Objekterkennung hinaus und könne auch Handlungen, Emotionen und narrative Zusammenhänge in Szenen beschreiben.
Breites Anwendungsspektrum
Wie aus dem technischen Bericht hervorgeht, zeigt PaliGemma 2 gute Leistungen in verschiedenen Bereichen: von der Erkennung chemischer Formeln über die Interpretation von Musikpartituren bis hin zur Analyse von Röntgenbildern und räumlichem Denken.
Für bestehende PaliGemma-Nutzer ist die Umstellung auf PaliGemma 2 laut Google einfach, da es als direkter Ersatz konzipiert ist. Das Modell bietet laut Google Leistungssteigerungen bei den meisten Aufgaben ohne größere Codeänderungen. Die Feinabstimmung für spezifische Aufgaben und Datensätze sei unkompliziert.
Die Modelle und der zugehörige Code sind auf den Plattformen Hugging Face und Kaggle verfügbar. Google stellt außerdem umfangreiche Dokumentationen und Beispiel-Notebooks zur Verfügung. Das Modell unterstützt verschiedene Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp.
Googles Gemma-Reihe bietet bereits eine Reihe an Open-Source-Modellen. Die Familie wurde kürzlich um neue Modelle für Code-Vervollständigung und effizientere Inferenz erweitert. Ende Oktober stellte Google ein für Japanisch optimiertes Gemma-Modell vor, das trotz nur zwei Milliarden Parametern eine Leistung auf GPT-3.5-Niveau für japanischsprachige Aufgaben erreicht.