Inhalt
summary Zusammenfassung

Mit Chameleon stellt Meta ein neues multimodales Modell vor, das Text und Bilder nahtlos in einem einheitlichen Tokenraum verarbeitet - und damit einen Vorläufer für eine GPT-4o-Alternative.

Meta AI stellt mit Chameleon einen neuen Ansatz vor, um multimodale Foundation Models zu trainieren, die sowohl Texte als auch Bilder als diskrete Token verarbeiten. Im Gegensatz zu bisherigen Verfahren verwendet Chameleon eine einheitliche Transformer-Architektur und verzichtet auf separate Encoder oder Decoder für verschiedene Modalitäten, wie sie etwa Unified-IO 2 einsetzt.

Metas Modell wird von Grund auf mit einer Mischung aus Texten, Bildern und Code trainiert. Dabei werden die Bilder zunächst in diskrete Token quantisiert, die analog zu den Wörtern in Texten verarbeitet werden können.

Bild: Meta

Durch diesen "Early-Fusion"-Ansatz, bei dem alle Modalitäten von Beginn an in einen gemeinsamen Darstellungsraum projiziert werden, kann Chameleon nahtlos über Modalitäten hinweg schlussfolgern und generieren. Das stellt die Forscher jedoch vor erhebliche technische Herausforderungen, insbesondere in Bezug auf die Stabilität und Skalierbarkeit des Trainings.

Anzeige
Anzeige

Um diese Herausforderungen zu meistern, führt das Team eine Reihe von architektonischen Innovationen und Trainingstechniken ein. Zudem zeigen die Forscher, wie sich die Methoden zum überwachten Finetuning, die für reine Sprachmodelle verwendet werden, auf den gemischt-modalen Fall übertragen lassen.

Chameleon zeigt durchgängig starke Leistung in allen Modalitäten

Mit diesen Techniken gelang es dem Team, das 34 Milliarden Parameter umfassende Chameleon-Modell mit 10 Billionen multimodalen Token zu trainieren. Das sind fünfmal so viele wie beim reinen Textmodell Llama-2. Das Sprachmodell Llama-3 wurde dagegen mit 15 Billionen Text-Token trainiert - zukünftige Varianten von Chameleon werden also wahrscheinlich mit deutlich mehr Token trainiert werden.

Bild: Meta

Umfangreiche Auswertungen zeigen, dass Chameleon ein breit aufgestelltes Modell für eine Vielzahl von Aufgaben ist. Bei Visual Question Answering und Image Captioning erzielt das 34-Milliarden-Modell Spitzenleistungen und übertrifft Modelle wie Flamingo, IDEFICS und Llava-1.5 und nähert sich GPT-4V an. Gleichzeitig bleibt es bei reinen Textaufgaben wettbewerbsfähig und erreicht ähnliche Leistungen wie Mixtral 8x7B und Gemini-Pro bei Tests zum gesunden Menschenverstand und zum Leseverständnis.

Am interessantesten sind jedoch die völlig neuen Fähigkeiten, die Chameleon im Bereich der gemischt-modalen Inferenz und Generierung bietet. In einem Test zeigt Meta, dass menschliche Beurteiler das 34-Milliarden-Modell Gemini-Pro und GPT-4V bevorzugen, wenn es um die Qualität gemischtmodaler Antworten auf offene Fragen geht, d.h. Fragen, die Bilder und Text mischen. Es kann auch Fragen beantworten, die Text und generierte Bilder enthalten.

Bild: Meta

Meta könnte bald eine Antwort auf GPT-4 Omni zeigen

Auch wenn über die konkrete Architektur des kürzlich vorgestellten GPT-4 omni (GPT-4o) von OpenAI wenig bekannt ist, dürfte das Unternehmen einen ähnlichen Ansatz verfolgen. Im Gegensatz zu Chameleon bezieht das Modell von OpenAI jedoch auch Audio direkt mit ein, ist vermutlich deutlich größer und generell mit deutlich mehr Daten trainiert.

Empfehlung

Laut Armen Aghajanyan, beteiligter KI-Forscher bei Meta, ist Chameleon jedoch erst der Anfang von Metas Arbeit, das Wissen über "das nächste Paradigma des Scaling" weiterzugeben: "Early-Fusion" multimodale Modelle sind die Zukunft. Laut dem Forscher wurde das Modell zudem bereits vor fünf Monaten trainiert worden und das Team habe seitdem große Fortschritte gemacht. Die Integration weiterer Modalitäten könnte einer davon sein. Metas CEO Mark Zuckerberg hat bereits multimodale Modelle für die Zukunft angekündigt.

Chameleon ist bisher nicht verfügbar.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta stellt mit Chameleon ein multimodales Modell vor, das Texte und Bilder in einem einheitlichen Token-Raum verarbeitet und nahtlos über Modalitäten hinweg schlussfolgern und generieren kann.
  • Durch einen "Early-Fusion"-Ansatz und architektonische Innovationen gelingt es, das 34 Milliarden Parameter umfassende Chameleon-Modell mit 10 Billionen multimodalen Token zu trainieren, das bei verschiedenen Aufgaben starke Leistungen zeigt.
  • Chameleon könnte der Vorläufer für Metas Antwort auf OpenAIs GPT-4 Omni sein: Chameleon wurde bereits vor fünf Monaten trainiert und seitdem habe man große Fortschritte gemacht, so einer der Forscher.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!