Inhalt
summary Zusammenfassung

Forschende von Google Research und Google DeepMind stellen PaLI-3 vor, ein Vision Language Model (VLM), das kleiner, schneller und leistungsfähiger sein soll als vergleichbare Modelle, die zehnmal größer sind.

PaLI-3, ein 5 Milliarden Parameter umfassendes Vision Language Model (VLM), das Bilder und Sprache in Kombination verarbeiten kann, hat nach Angaben des Forschungsteams in verschiedenen multimodalen Benchmarks zehnmal größere Modelle geschlagen.

VLMs können beispielsweise Fragen zu Bildern beantworten, Videos beschreiben, Objekte erkennen oder Text auf Bildern lesen. OpenAI bietet mit GPT-4-Vision ein solches VLM an und auch Unternehmen wie Nvidia sehen in den VLMs einen wichtigen Baustein für zukünftige industrielle KI-Anwendungen.

Skalierung verbessert VLM-Leistung

VLMs bestehen typischerweise aus einem vortrainierten Bildmodell, das gelernt hat, Text mit Bildern zu verknüpfen, und einem Sprachmodell. Die Architektur von PaLI-3 folgt dem Vorbild seiner Vorgänger und beinhaltet einen Vision Transformer, der das Bild in Tokens kodiert. Diese Tokens werden zusammen mit dem Textinput an einen Encoder-Decoder-Transformer übergeben, der eine Textausgabe erzeugt.

Anzeige
Anzeige

Google hat mit seinen Vorgängern PaLI und PaLI-X gezeigt, dass ein hochskalierter Vision Transformer zwar nicht unbedingt bessere Ergebnisse bei reinen Bildaufgaben wie ImageNet erzielt, aber bei multimodalen Bild-Sprach-Aufgaben wie der Beantwortung von Fragen zu Bildern deutliche Leistungssprünge erzielen kann. Mit PaLI-X skalierte Google auf ganze 55 Milliarden Parameter.

Googles PaLI-3 setzt auf bekannte Architektur mit neuer Trainingsmethode

Während Google für PaLI-X einen auf Bildklassifikation spezialisierten JFT-Encoder für den Vision Transformer einsetzt, verwendet PaLI-3 einen kontrasttrainierten Vision Transformer (SigLIP), der CLIP ähnelt. Der ViT umfasst nur 2 Milliarden Parameter, zusammen mit dem Sprachmodell kommt PaLI-3 auf nur 5 Milliarden Parameter.

Solche kleineren Modelle seien praktischer für Training und Einsatz, umweltfreundlicher und ermöglichten schnellere Forschungszyklen für das Modelldesign, so die Forschenden. Praktisch ist auch, dass PaLI-3 trotz seiner geringen Größe in mehr als zehn Bild-Sprach-Benchmarks auf dem Niveau der derzeit besten VLMs liegt und - obwohl es nicht mit Videodaten trainiert wurde - in Benchmarks, in denen VLMs Fragen zu Videos beantworten müssen, neue Bestwerte erreicht.

PaLI-3 könnte neue Generation größerer Modelle ermöglichen

Wie so oft wird der Trend jedoch zu größeren Modellen gehen, denn die hohe Leistung von PaLI-3 trotz seiner geringen Größe zeigt das Potenzial der verwendeten SigLIP-Methode, bei der der Vision Transformer mit unstrukturierten Webdaten trainiert wird. Da diese nahezu unerschöpflich vorhanden sind, wird Google wahrscheinlich bald eine größere Version von PaLI-3 trainieren.

"Wir hoffen, dass PaLI-3 mit nur 5B-Parametern die Forschung an grundlegenden Teilen komplexer VLMs wiederbeleben wird und eine neue Generation von großen skalierten Modellen hervorbringen könnte", schreibt das Team.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Research und DeepMind präsentieren PaLI-3, ein leistungsfähiges Vision Language Model (VLM) mit nur 5 Milliarden Parametern, das Bilder und Sprache kombiniert verarbeiten kann.
  • PaLI-3 konkurriert in speziellen Benchmarks, wie Bild-Sprach-Aufgaben, mit größeren VLMs und erreicht neue Bestwerte bei Benchmarks für die Beantwortung von Fragen zu Videos.
  • Die starke Leistung von PaLI-3 trotz seiner geringen Größe zeigt das Potenzial der kontrasttrainierten Vision Transformer Methode (SigLIP) und könnte laut Google die Grundlage für eine neue Generation von größeren, skalierten VLMs darstellen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!