Googles neues Vision-Sprachmodell PaLI-3 erreicht die Leistung 10x größerer Modelle

DALL-E 3 prompted by THE DECODER

Forschende von Google Research und Google DeepMind stellen PaLI-3 vor, ein Vision Language Model (VLM), das kleiner, schneller und leistungsfähiger sein soll als vergleichbare Modelle, die zehnmal größer sind.

PaLI-3, ein 5 Milliarden Parameter umfassendes Vision Language Model (VLM), das Bilder und Sprache in Kombination verarbeiten kann, hat nach Angaben des Forschungsteams in verschiedenen multimodalen Benchmarks zehnmal größere Modelle geschlagen.

VLMs können beispielsweise Fragen zu Bildern beantworten, Videos beschreiben, Objekte erkennen oder Text auf Bildern lesen. OpenAI bietet mit GPT-4-Vision ein solches VLM an und auch Unternehmen wie Nvidia sehen in den VLMs einen wichtigen Baustein für zukünftige industrielle KI-Anwendungen.

Skalierung verbessert VLM-Leistung

VLMs bestehen typischerweise aus einem vortrainierten Bildmodell, das gelernt hat, Text mit Bildern zu verknüpfen, und einem Sprachmodell. Die Architektur von PaLI-3 folgt dem Vorbild seiner Vorgänger und beinhaltet einen Vision Transformer, der das Bild in Tokens kodiert. Diese Tokens werden zusammen mit dem Textinput an einen Encoder-Decoder-Transformer übergeben, der eine Textausgabe erzeugt.

Google hat mit seinen Vorgängern PaLI und PaLI-X gezeigt, dass ein hochskalierter Vision Transformer zwar nicht unbedingt bessere Ergebnisse bei reinen Bildaufgaben wie ImageNet erzielt, aber bei multimodalen Bild-Sprach-Aufgaben wie der Beantwortung von Fragen zu Bildern deutliche Leistungssprünge erzielen kann. Mit PaLI-X skalierte Google auf ganze 55 Milliarden Parameter.

Googles PaLI-3 setzt auf bekannte Architektur mit neuer Trainingsmethode

Während Google für PaLI-X einen auf Bildklassifikation spezialisierten JFT-Encoder für den Vision Transformer einsetzt, verwendet PaLI-3 einen kontrasttrainierten Vision Transformer (SigLIP), der CLIP ähnelt. Der ViT umfasst nur 2 Milliarden Parameter, zusammen mit dem Sprachmodell kommt PaLI-3 auf nur 5 Milliarden Parameter.

Solche kleineren Modelle seien praktischer für Training und Einsatz, umweltfreundlicher und ermöglichten schnellere Forschungszyklen für das Modelldesign, so die Forschenden. Praktisch ist auch, dass PaLI-3 trotz seiner geringen Größe in mehr als zehn Bild-Sprach-Benchmarks auf dem Niveau der derzeit besten VLMs liegt und - obwohl es nicht mit Videodaten trainiert wurde - in Benchmarks, in denen VLMs Fragen zu Videos beantworten müssen, neue Bestwerte erreicht.

PaLI-3 könnte neue Generation größerer Modelle ermöglichen

Wie so oft wird der Trend jedoch zu größeren Modellen gehen, denn die hohe Leistung von PaLI-3 trotz seiner geringen Größe zeigt das Potenzial der verwendeten SigLIP-Methode, bei der der Vision Transformer mit unstrukturierten Webdaten trainiert wird. Da diese nahezu unerschöpflich vorhanden sind, wird Google wahrscheinlich bald eine größere Version von PaLI-3 trainieren.

"Wir hoffen, dass PaLI-3 mit nur 5B-Parametern die Forschung an grundlegenden Teilen komplexer VLMs wiederbeleben wird und eine neue Generation von großen skalierten Modellen hervorbringen könnte", schreibt das Team.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Googles neues Vision-Sprachmodell PaLI-3 erreicht die Leistung 10x größerer Modelle

Skalierung verbessert VLM-Leistung

Googles PaLI-3 setzt auf bekannte Architektur mit neuer Trainingsmethode

PaLI-3 könnte neue Generation größerer Modelle ermöglichen

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

COLORBENCH zeigt Schwächen multimodaler KI

BiMediX2: Leistungsstarke KI für medizinische Bildanalyse auf Englisch und Arabisch

KI-System erkennt und bewertet Spielszenen und Fouls - und kommentiert sie sogar

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Googles neues Vision-Sprachmodell PaLI-3 erreicht die Leistung 10x größerer Modelle

Skalierung verbessert VLM-Leistung

Googles PaLI-3 setzt auf bekannte Architektur mit neuer Trainingsmethode

PaLI-3 könnte neue Generation größerer Modelle ermöglichen

Artikel teilen

Bankverbindung