Inhalt
summary Zusammenfassung

Mit PaliGemma 2 veröffentlicht Google die nächste Generation seines Open Source Vision Language Models. Es bietet skalierbare Leistung, verbesserte Bildbeschreibungen und neue Anwendungsmöglichkeiten.

Anzeige

PaliGemma 2 kombiniert den SigLIP-So400m Vision Encoder mit der gesamten Palette der Gemma 2 Sprachmodelle (2B bis 27B). Zu den Neuerungen von PaliGemma 2 gehören laut Google verschiedene Modellgrößen (3B, 10B, 28B Parameter) und Auflösungen (224px, 448px, 896px), die eine skalierbare Leistung für verschiedene Aufgaben ermöglichen.

Das Modell generiert detaillierte Bildbeschreibungen, die über die reine Objekterkennung hinausgehen und Handlungen, Emotionen und den narrativen Kontext einer Szene erfassen.

Braunes Pferd mit Sattel und Nummer 55, steht vor einer Steinmauer auf Sandgrund, ausgestattet mit Trainingsgeschirr und Stern-Markierung.
Wie alle generativen KI-Modelle kann auch PaliGemma 2 halluzinieren, etwa Inhalte beschreiben, die im Bild nicht sichtbar sind, oder Inhalte übersehen. | Bild: Google

Eine der Hauptneuerungen ist laut Google die Fähigkeit, detaillierte und kontextrelevante Bildbeschreibungen zu generieren. Das Modell gehe dabei über die reine Objekterkennung hinaus und könne auch Handlungen, Emotionen und narrative Zusammenhänge in Szenen beschreiben.

Anzeige
Anzeige

Breites Anwendungsspektrum

Wie aus dem technischen Bericht hervorgeht, zeigt PaliGemma 2 gute Leistungen in verschiedenen Bereichen: von der Erkennung chemischer Formeln über die Interpretation von Musikpartituren bis hin zur Analyse von Röntgenbildern und räumlichem Denken.

Röntgenbild des Brustkorbs mit vergrößerter Herzsilhouette, beidseitigem Pleuraerguss und Lungenödem, mit begleitender Diagnose und KI-Analyse.
Diese Röntgenaufnahme des Brustkorbs zeigt charakteristische Anzeichen einer Kardiomyopathie mit Lungenödem. Die KI-basierte PaliGemma 2-Analyse bestätigt die radiologischen Befunde und unterstützt die klinische Diagnose. | Bild: Google

Für bestehende PaliGemma-Nutzer ist die Umstellung auf PaliGemma 2 laut Google einfach, da es als direkter Ersatz konzipiert ist. Das Modell bietet laut Google Leistungssteigerungen bei den meisten Aufgaben ohne größere Codeänderungen. Die Feinabstimmung für spezifische Aufgaben und Datensätze sei unkompliziert.

Die Modelle und der zugehörige Code sind auf den Plattformen Hugging Face und Kaggle verfügbar. Google stellt außerdem umfangreiche Dokumentationen und Beispiel-Notebooks zur Verfügung. Das Modell unterstützt verschiedene Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp.

Googles Gemma-Reihe bietet bereits eine Reihe an Open-Source-Modellen. Die Familie wurde kürzlich um neue Modelle für Code-Vervollständigung und effizientere Inferenz erweitert. Ende Oktober stellte Google ein für Japanisch optimiertes Gemma-Modell vor, das trotz nur zwei Milliarden Parametern eine Leistung auf GPT-3.5-Niveau für japanischsprachige Aufgaben erreicht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google stellt mit PaliGemma 2 die nächste Generation seines Open Source Vision Language Models vor, das laut Google skalierbare Leistung für verschiedene Aufgaben, verbesserte Bildbeschreibungen und ein breites Anwendungsspektrum bietet.
  • PaliGemma 2 kombiniert den SigLIP-So400m Vision Encoder mit den Gemma 2 Sprachmodellen. Es kann neben Objekten auch Handlungen, Emotionen und narrative Zusammenhänge in Bildern erkennen.
  • Das Modell zeigt laut Google Spitzenleistungen in diversen Bereichen wie der Erkennung chemischer Formeln, Interpretation von Musikpartituren und Analyse von Röntgenbildern.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!