Google stellt neues Open Source Vision-Sprachmodell PaliGemma 2 vor

Mit PaliGemma 2 veröffentlicht Google die nächste Generation seines Open Source Vision Language Models. Es bietet skalierbare Leistung, verbesserte Bildbeschreibungen und neue Anwendungsmöglichkeiten.

PaliGemma 2 kombiniert den SigLIP-So400m Vision Encoder mit der gesamten Palette der Gemma 2 Sprachmodelle (2B bis 27B). Zu den Neuerungen von PaliGemma 2 gehören laut Google verschiedene Modellgrößen (3B, 10B, 28B Parameter) und Auflösungen (224px, 448px, 896px), die eine skalierbare Leistung für verschiedene Aufgaben ermöglichen.

Das Modell generiert detaillierte Bildbeschreibungen, die über die reine Objekterkennung hinausgehen und Handlungen, Emotionen und den narrativen Kontext einer Szene erfassen.

Braunes Pferd mit Sattel und Nummer 55, steht vor einer Steinmauer auf Sandgrund, ausgestattet mit Trainingsgeschirr und Stern-Markierung. — Wie alle generativen KI-Modelle kann auch PaliGemma 2 halluzinieren, etwa Inhalte beschreiben, die im Bild nicht sichtbar sind, oder Inhalte übersehen. | Bild: Google

Eine der Hauptneuerungen ist laut Google die Fähigkeit, detaillierte und kontextrelevante Bildbeschreibungen zu generieren. Das Modell gehe dabei über die reine Objekterkennung hinaus und könne auch Handlungen, Emotionen und narrative Zusammenhänge in Szenen beschreiben.

Breites Anwendungsspektrum

Wie aus dem technischen Bericht hervorgeht, zeigt PaliGemma 2 gute Leistungen in verschiedenen Bereichen: von der Erkennung chemischer Formeln über die Interpretation von Musikpartituren bis hin zur Analyse von Röntgenbildern und räumlichem Denken.

Röntgenbild des Brustkorbs mit vergrößerter Herzsilhouette, beidseitigem Pleuraerguss und Lungenödem, mit begleitender Diagnose und KI-Analyse. — Diese Röntgenaufnahme des Brustkorbs zeigt charakteristische Anzeichen einer Kardiomyopathie mit Lungenödem. Die KI-basierte PaliGemma 2-Analyse bestätigt die radiologischen Befunde und unterstützt die klinische Diagnose. | Bild: Google

Für bestehende PaliGemma-Nutzer ist die Umstellung auf PaliGemma 2 laut Google einfach, da es als direkter Ersatz konzipiert ist. Das Modell bietet laut Google Leistungssteigerungen bei den meisten Aufgaben ohne größere Codeänderungen. Die Feinabstimmung für spezifische Aufgaben und Datensätze sei unkompliziert.

Die Modelle und der zugehörige Code sind auf den Plattformen Hugging Face und Kaggle verfügbar. Google stellt außerdem umfangreiche Dokumentationen und Beispiel-Notebooks zur Verfügung. Das Modell unterstützt verschiedene Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp.

Googles Gemma-Reihe bietet bereits eine Reihe an Open-Source-Modellen. Die Familie wurde kürzlich um neue Modelle für Code-Vervollständigung und effizientere Inferenz erweitert. Ende Oktober stellte Google ein für Japanisch optimiertes Gemma-Modell vor, das trotz nur zwei Milliarden Parametern eine Leistung auf GPT-3.5-Niveau für japanischsprachige Aufgaben erreicht.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Google stellt neues Open Source Vision-Sprachmodell PaliGemma 2 vor

Breites Anwendungsspektrum

Google bringt Gemma 3 270M: Kompaktes KI-Modell für effiziente Spezialaufgaben

Gemma 3n bringt lokale multimodale KI-Funktionen nativ auf Googles Pixel

Google fasst Pläne und Beispiele für generative KI im Gaming zusammen

Googles KI-Umweltstudie verharmlost Energieverbrauch und schönt CO₂-Werte

Deepseek stellt neues Hybrid-KI-Modell V3.1 vor

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

Google stellt neues Open Source Vision-Sprachmodell PaliGemma 2 vor

Breites Anwendungsspektrum

Google bringt Gemma 3 270M: Kompaktes KI-Modell für effiziente Spezialaufgaben

Gemma 3n bringt lokale multimodale KI-Funktionen nativ auf Googles Pixel

Google fasst Pläne und Beispiele für generative KI im Gaming zusammen