Skip to content

Googles neues Vision-Sprachmodell PaLI-3 erreicht die Leistung 10x größerer Modelle

Image description
DALL-E 3 prompted by THE DECODER

Kurz & Knapp

  • Google Research und DeepMind präsentieren PaLI-3, ein leistungsfähiges Vision Language Model (VLM) mit nur 5 Milliarden Parametern, das Bilder und Sprache kombiniert verarbeiten kann.
  • PaLI-3 konkurriert in speziellen Benchmarks, wie Bild-Sprach-Aufgaben, mit größeren VLMs und erreicht neue Bestwerte bei Benchmarks für die Beantwortung von Fragen zu Videos.
  • Die starke Leistung von PaLI-3 trotz seiner geringen Größe zeigt das Potenzial der kontrasttrainierten Vision Transformer Methode (SigLIP) und könnte laut Google die Grundlage für eine neue Generation von größeren, skalierten VLMs darstellen.

Forschende von Google Research und Google DeepMind stellen PaLI-3 vor, ein Vision Language Model (VLM), das kleiner, schneller und leistungsfähiger sein soll als vergleichbare Modelle, die zehnmal größer sind.

PaLI-3, ein 5 Milliarden Parameter umfassendes Vision Language Model (VLM), das Bilder und Sprache in Kombination verarbeiten kann, hat nach Angaben des Forschungsteams in verschiedenen multimodalen Benchmarks zehnmal größere Modelle geschlagen.

VLMs können beispielsweise Fragen zu Bildern beantworten, Videos beschreiben, Objekte erkennen oder Text auf Bildern lesen. OpenAI bietet mit GPT-4-Vision ein solches VLM an und auch Unternehmen wie Nvidia sehen in den VLMs einen wichtigen Baustein für zukünftige industrielle KI-Anwendungen.

Skalierung verbessert VLM-Leistung

VLMs bestehen typischerweise aus einem vortrainierten Bildmodell, das gelernt hat, Text mit Bildern zu verknüpfen, und einem Sprachmodell. Die Architektur von PaLI-3 folgt dem Vorbild seiner Vorgänger und beinhaltet einen Vision Transformer, der das Bild in Tokens kodiert. Diese Tokens werden zusammen mit dem Textinput an einen Encoder-Decoder-Transformer übergeben, der eine Textausgabe erzeugt.

Google hat mit seinen Vorgängern PaLI und PaLI-X gezeigt, dass ein hochskalierter Vision Transformer zwar nicht unbedingt bessere Ergebnisse bei reinen Bildaufgaben wie ImageNet erzielt, aber bei multimodalen Bild-Sprach-Aufgaben wie der Beantwortung von Fragen zu Bildern deutliche Leistungssprünge erzielen kann. Mit PaLI-X skalierte Google auf ganze 55 Milliarden Parameter.

Googles PaLI-3 setzt auf bekannte Architektur mit neuer Trainingsmethode

Während Google für PaLI-X einen auf Bildklassifikation spezialisierten JFT-Encoder für den Vision Transformer einsetzt, verwendet PaLI-3 einen kontrasttrainierten Vision Transformer (SigLIP), der CLIP ähnelt. Der ViT umfasst nur 2 Milliarden Parameter, zusammen mit dem Sprachmodell kommt PaLI-3 auf nur 5 Milliarden Parameter.

Solche kleineren Modelle seien praktischer für Training und Einsatz, umweltfreundlicher und ermöglichten schnellere Forschungszyklen für das Modelldesign, so die Forschenden. Praktisch ist auch, dass PaLI-3 trotz seiner geringen Größe in mehr als zehn Bild-Sprach-Benchmarks auf dem Niveau der derzeit besten VLMs liegt und - obwohl es nicht mit Videodaten trainiert wurde - in Benchmarks, in denen VLMs Fragen zu Videos beantworten müssen, neue Bestwerte erreicht.

PaLI-3 könnte neue Generation größerer Modelle ermöglichen

Wie so oft wird der Trend jedoch zu größeren Modellen gehen, denn die hohe Leistung von PaLI-3 trotz seiner geringen Größe zeigt das Potenzial der verwendeten SigLIP-Methode, bei der der Vision Transformer mit unstrukturierten Webdaten trainiert wird. Da diese nahezu unerschöpflich vorhanden sind, wird Google wahrscheinlich bald eine größere Version von PaLI-3 trainieren.

"Wir hoffen, dass PaLI-3 mit nur 5B-Parametern die Forschung an grundlegenden Teilen komplexer VLMs wiederbeleben wird und eine neue Generation von großen skalierten Modellen hervorbringen könnte", schreibt das Team.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren