Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Die europäische KI-Firma Aleph Alpha stellt eine Innovation bei der KI-Bildgenerierung vor: multimodale Prompts. KI-Bildsysteme sind dank der neuen Technik präziser steuerbar.

Bisherige KI-Modelle verarbeiten in erster Linie Text für neue Bildideen. Das von Aleph Alpha gemeinsam mit der TU Darmstadt entwickelte M-VADER-Diffusionmodell hingegen kann multimodale Eingaben wie Foto, Skizze und textuelle Beschreibung miteinander zu einer neuen Bildidee verschmelzen.

Herzstück der M-Vader-Architektur ist der multimodale Decoder S-MAGMA mit 13 Milliarden Parametern. Er kombiniert das Bild-Sprache-Modell MAGMA mit einem für semantische Suche feingetunten Luminous 13B-Modell. Beide vortrainierten Modelle stammen von Aleph Alpha. Der Output von S-MAGMA leitet den Bildgenerierungsprozess mit einer für multimodale Verarbeitung feingetunten Stable-Diffusion-Version an.

Bild: Aleph Alpha / TU Darmstadt - Input-Bilder wg. Copyright geblurrt

M-Vader kann laut des Teams Bilder anhand von multimodalem Kontext generieren, aus zwei Bildern ein neues Bild oder Variationen eines Bildes erschaffen. Die folgende Grafik zeigt einige Beispiele für die Zusammenführung von mehreren Bildern samt Textanweisungen zu einem neuen Bild.

Anzeige
Anzeige
Bild: Aleph Alpha / TU Darmstadt - Input-Bilder wg. Copyright geblurrt

Der Reichtum an Informationen, der in der gewünschten Bildausgabe enthalten ist, lässt sich manchmal nur schwer mit einer (einzigen modalen) Texteingabeaufforderung erfassen. Dies ist der Beitrag dieser Arbeit: eine Methode zur Bilderzeugung mit multimodaler kontextueller Anleitung (mit beliebiger Promptlänge).

Aus dem Paper

Beispiel für eine Bildvariation mit M-Vader. | Bild: Aleph Alpha / TU Darmstadt

Multimodale Prompts werden Teil von Aleph Alphas Luminous-Modellen

Die Forschenden sehen ihre Arbeit als Beitrag für die Entwicklung multimodaler Prompts für KI-Bildmodelle, die Nutzerintentionen besser erfassen können. Weitere Bild-Beispiele gibt es im Paper.

Unter dem Produktnamen Luminous und Magma bietet Aleph Alpha bereits zwei KI-Basismodelle in verschiedenen Größen für die Textgenerierung und Bildverarbeitung an. Die jetzt vorgestellte multimodale Bildgenerierungstechnik ist laut Aleph-Alpha-CEO Jonas Andrulis eine Weltneuheit. Sie soll bald Teil des Luminous-Angebots werden.

"Unser Wissen ist nicht nur Text, sondern multimodal, und KI muss in der Lage sein, Sprache und Bilder gemeinsam zu verstehen", schreibt Andrulis.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Bisherige Bildmodelle generieren neue Motive hauptsächlich anhand von Text.
  • Die deutsche KI-Firma Aleph Alpha stellt jetzt eine multimodale Prompt-Technik für KI-Bildgenerierung an.
  • Das neue Modell M-Vader kann anhand von mehreren Bildern und Texten, die aufeinander Bezug nehmen, ein neues Motiv erstellen. KI-Bildmodelle werden so genauer steuerbar.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!