Inhalt
summary Zusammenfassung

Das neueste Bildmodell von Meta, CM3leon, kann sowohl Text als auch Bilder verstehen und erzeugen. Es kann Bilder aus Textbeschreibungen erzeugen und umgekehrt, Text aus Bildern, was es für viele Aufgaben nützlich macht.

Anzeige

CM3leon (ausgesprochen "Chamäleon") ist ein einziges Basismodell, das sowohl Text zu Bild als auch Bild zu Text erzeugen kann. Es ist das erste multimodale Modell, das mit einem von reinen Text-Sprachmodellen abgeleiteten Rezept trainiert wurde und sowohl Text als auch Bilder eingeben und erzeugen kann.

Die Architektur von CM3Leon verwendet ein Decoder-Only Tokenizer-basiertes Transformer-Netzwerk, ähnlich wie bei textbasierten Modellen. Es baut auf früheren Arbeiten (RA-CM3) auf und verwendet während des Trainings eine externe Datenbank mittels "Retrieval Augmentation".

Während andere Modelle nur aus den Rohdaten lernen, die ihnen zur Verfügung gestellt werden, suchen Modelle mit Retrieval-Augmentation während des Trainings aktiv nach den relevantesten und vielfältigsten Daten für ihren Lernprozess, wodurch die Trainingsphase robuster und effizienter wird.

Anzeige
Anzeige

Meta gibt an, dass es nur ein Fünftel dker Rechenleistung bestehender Transformer-basierter Bildmethoden benötigt und mit weniger Trainingsdaten auskommt, sodass CM3Leon genauso effizient trainiert werden kann wie bestehende Diffusion-basierte Modelle.

Ein Multitasking-Chamäleon

Durch ein umfassendes Multitasking Instruktionstraining ist CM3leon in der Lage, eine Vielzahl von Aufgaben auszuführen, einschließlich textgeführter Bildgenerierung und -bearbeitung, Text-zu-Bild-Generierung, textgeführter Bildbearbeitung, Generierung von Bildunterschriften, visueller Frage-Antwort und strukturgeführter Bildbearbeitung.

Training mit Anweisungen bedeutet, dass das Modell darauf trainiert wird, Anweisungen im Textformat zu befolgen. Beispielsweise kann eine Anweisung wie "Beschreibe ein Bild eines Sonnenuntergangs über dem Meer" eingegeben werden, und das KI-Modell erstellt eine Beschreibung auf der Grundlage dieser Anweisung. Das Modell wurde mit vielen solcher Beispiele für die oben genannten Aufgaben trainiert.

(1) Ein kleiner Kaktus mit Strohhut und Neon-Sonnenbrille in der Wüste Sahara. (2) Eine Nahaufnahme einer menschlichen Hand, Handmodell. Hohe Qualität. (3) Eine Waschbär-Hauptfigur in einem Anime, die sich auf einen epischen Kampf mit einem Samurai-Schwert vorbereitet. Kampfhaltung. Fantasy, Illustration. (4) Ein Stoppschild im Fantasy-Stil mit der Aufschrift "1991".

Laut Meta können Skalierungsmethoden, die für reine Textmodelle entwickelt wurden, direkt auf tokenisierungsbasierte Bilderzeugungsmodelle verallgemeinert werden, was noch bessere Ergebnisse mit größeren Modellen impliziert, die länger auf mehr Daten trainiert wurden.

Das Training von CM3leon bestand aus einer umfangreichen Retrieval-erweiterten Pre-Trainingsphase auf großen Datenmengen, gefolgt von einer überwachten Feinabstimmung (SFT) mit Instruktionen, um die Multitasking-Fähigkeiten zu erhalten.

Empfehlung

CM3leon erreicht im Zero-Shot MS-COCO Benchmark eine Fréchet Inception Distance (FID) von 4.88, was einen neuen Rekord darstellt und das Google Parti Image Model übertrifft.

Mehr Kohärenz, mehr Lizenz, mehr Metaversum

Laut Meta zeichnet sich CM3leon dadurch aus, dass es kohärente Bilder erzeugt, die selbst komplexen Eingabeanweisungen besser folgen. Es kann globale Formen und lokale Details besser wiedergeben, Text oder Zahlen so generieren, wie sie im Prompt erscheinen, und Aufgaben wie die textgeführte Bildbearbeitung lösen, für die bisher spezielle Modelle wie Instruct Pix2Pix erforderlich waren.

Das Bildmodell von Meta kann Bilder auf der Grundlage von Textaufforderungen bearbeiten. | Bild: Meta

Es kann auch detaillierte Beschriftungen für Bilder schreiben, sozusagen eine Art Reverse Prompting, die dann für die weitere Bilderstellung oder -bearbeitung oder für die Erstellung synthetischer Trainingsdatensätze verwendet werden können. Laut Meta ist CM3leon Flamingo und OpenFlamingo bei Textaufgaben ebenbürtig oder sogar überlegen, obwohl es auf weniger Text (3 Milliarden Text-Token) trainiert wurde.

A dog with a stick in his mouth.
CM3leon kann Bilder lesen und Beschriftungen für sie erstellen, die dann für Prompts oder weiteres Training verwendet werden können. | Bild: Meta

Bemerkenswert ist, dass Meta angibt, dass das Modell auf einem "neuen, großen Shutterstock-Datensatz trainiert wurde, der nur lizenzierte Bild- und Textdaten enthält", aber dennoch im Vergleich zu anderen Modellen sehr konkurrenzfähig ist.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

"Das Ergebnis ist, dass wir Probleme mit Bildrechten und der Zuordnung von Bildern vermeiden können, ohne die Leistung zu beeinträchtigen", schreibt das Forscherteam.

Laut Meta ist CM3leon ein Schritt in Richtung hochauflösende Bilderzeugung und -verstehen, der den Weg für multimodale Sprachmodelle ebnet. Meta glaubt weiterhin an das Metaverse und sagt, dass Modelle wie CM3leon "letztendlich die Kreativität fördern und bessere Anwendungen im Metaverse ermöglichen könnten."

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Metas neues Bildmodell CM3leon versteht und generiert Text und Bilder und kann daher Aufgaben wie die Generierung von Bildern aus Text, die Generierung von Bildunterschriften aus Bildern und die Beantwortung visueller Fragen effizient durchführen.
  • CM3leon nutzt Feintuning mit Instruktionen für umfangreiches Multitasking und erreicht eine hohe Performance bei Aufgaben wie der textbasierten Bilderzeugung und -verarbeitung. Im Benchmark zur Bildgenerierung erreichte CM3leon einen neuen Spitzenwert für die Fréchet Inception Distance (FID) von 4,88.
  • Außerdem wurde CM3leon ausschließlich mit lizenzierten Bild- und Textdaten trainiert, so dass Fragen des Bildeigentums und der Namensnennung geklärt sind, schreibt Meta.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!