Inhalt
summary Zusammenfassung

Generative KI-Modelle wie DALL-E 2 oder Stable Diffusion speichern ihr Wissen in ihren Parametern. Meta zeigt ein Modell, dass stattdessen auf eine externe Datenbank zugreifen kann.

Aktuelle generative KI-Modelle wie DALL-E 2 generieren beeindrucken Bilder, speichern jedoch ihr Wissen in den Modell-Parametern. Verbesserungen erfordern daher immer größere Modelle und immer mehr Trainingsdaten. Forschende arbeiten daher an einer Reihe von Möglichkeiten, Modellen neue Konzepte beizubringen oder direkt Zugriff auf externe Informationen zu geben.

Die Ideen für externe Zugriffe kommen aus einem anderen Feld generativer KI-Modellen: der Verarbeitung natürlicher Sprache. OpenAI, Google oder Meta haben bereits WebGPT und andere Sprachmodelle gezeigt, die etwa auf Internet-Artikel zugreifen können, um ihre Antworten zu überprüfen.

Google und Meta setzen auf Abfragen für multimodale Modelle

Im Oktober zeigten Google-Forschende Re-Imagen (Retrieval-Augmented Text-to-Image Generator), ein generatives Modell, das auf eine externe multimodale Wissensdatenbank zugreift und dort Referenzen abruft, um Bilder zu erzeugen. Re-Imagen bezieht über die Datenbank etwa semantische und visuelle Informationen über unbekannte oder seltene Objekte und verbessert so die Genauigkeit bei der Bild-Generierung.

Anzeige
Anzeige
Google Re-Imagen greift auf eine externe Datenbank zu und kann so Bilder seltener oder ungesehener Objekte besser generieren. | Bild: Google

In einer neuen Arbeit zeigen nun Forschende von Meta, der Stanford University und der University of Washington das generative Modell RA-CM3 (Retrieval Augmented CM3), das ebenfalls auf eine externe Datenbank zugreifen kann. CM3 steht für "Causal Masked Multimodal Model" und ist ein von Meta Anfang 2022 vorgestelltes Transformer-Modell, das Bilder und Texte generieren kann.

Metas RA-CM3 setzt auf externe Datenbank und ist dadurch deutlich kleiner

Metas RA-CM3 wurde mit einem Teil des LAIONs-Datensatz trainiert, der auch für Stable Diffusion genutzt wurde. Anders als Re-Imagen kann RA-CM3 Text und Bild verarbeiten. Als Input können also Text-Prompts oder Bilder dienen.

Der Input wird von einem multimodalen Encoder verarbeitet und an einen Retriever geleitet, der relevante multimodale Daten aus einem externen Speicher abfragt, die ebenfalls von einem multimodalen Encoder verarbeitet werden.

Ein Retriever fragt Informationen aus einem externen Speicher ab. | Bild: Yasunaga et al.

Beide Datenströme werden dann an den multimodalen Generator geleitet, der anschließend Text, Bild oder beides generiert. RA-CM3 kann die externen Bild- und Text-Daten nutzen, um etwa Bilder näher an den Anforderungen des Prompts zu generieren oder korrekte Bild-Unterschriften zu generieren. Durch die Datenbank kann das Modell etwa einen bestimmten Berg, ein bestimmtes Gebäude oder ein Monument deutlich besser in ein neues Bild verarbeiten.

RA-CM3 kann externe Bilder abfragen und diese für bessere Bilde-Synthese nutzen. | Bild: Yasunaga et al.

Mit den externen Informationen kann das Modell zudem Bilder besser vervollständigen. RA-CM3 zeige außerdem die Fähigkeit zur One-Shot- und Few-Shot-Bildklassifizierung.

Empfehlung
RA-CM3 kann auch mehrere externe Bilder als Input für die Bild-Synthese verwenden. | Bild: Yasunaga et al.

Insgesamt nutze RA-CM3 deutlich weniger Trainingsdaten und -ressourcen und sei zudem deutlich kleiner als vergleichbare Modelle, schreibt das Team. Für das größte Modell nutzten die Forschenden 150 Millionen Bilder und drei Milliarden Parameter. Die Qualität der generierten Bilder liege im Schnitt jedoch noch unter denen der deutlich größeren Modelle von OpenAI oder Google.

Allerdings zeigt sich auch bei RA-CM3 der Effekt der Skalierung: Das größte Modell liegt vor den kleineren Varianten und das Team geht davon aus, dass noch größere Modelle deutlich besser werden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Generative Text-zu-Bild-Modelle wie DALL-E 2 speichern ihr Wissen in den Modell-Parametern. Das macht sie groß und ihr Training ressourcenintensiv.
  • Abfrage-unterstütze multimodale Modelle könnten dieses Problem lösen und die Genauigkeit der KI-Systeme verbessern.
  • Forschende von Meta zeigen RA-CM3, ein multimodales Modell, das Text und Bild als Input verarbeiten und generieren kann. Dabei greift das System auf eine externe Datenbank zurück.
  • RA-CM3 ist so laut des Teams deutlich kleiner als vergleichbar leistungsfähige Systeme und kann etwa Bilder von Monumenten wahrheitsgetreuer synthetisieren sowie Bilder besser vervollständigen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!