Inhalt
summary Zusammenfassung

Mit "Transfusion" stellt Meta AI einen neuen Ansatz vor, der Sprachmodelle und Bildgenerierung in einem einheitlichen KI-System kombiniert. Das Modell erreicht bei der Bildgenerierung ähnliche Ergebnisse wie spezialisierte Systeme und verbessert gleichzeitig die Textverarbeitung.

Anzeige

Forscher von Meta AI haben mit "Transfusion" eine Methode entwickelt, die Sprachmodelle und Bildgenerierung in einem einzigen KI-System vereint. Laut dem Forschungsteam kombiniert Transfusion die Stärken von Sprachmodellen bei der Verarbeitung diskreter Daten wie Text mit den Fähigkeiten von Diffusionsmodellen bei der Erzeugung kontinuierlicher Daten wie Bilder.

Aktuelle Systeme zur Bildgenerierung verwenden oft vortrainierte Textencoder zur Verarbeitung von Eingabeprompts, die dann mit separaten Diffusionsmodellen zur Bilderzeugung kombiniert werden, erklärt Meta. Ähnlich funktionieren viele multimodale Sprachmodelle, die vortrainierte Textmodelle mit spezialisierten Encodern für andere Modalitäten verbinden.

Bild: Meta

Transfusion hingegen nutzt eine einzige, einheitliche Transformer-Architektur für alle Modalitäten, die end-to-end auf Text- und Bilddaten trainiert wird. Dabei kommen für Text und Bilder unterschiedliche Verlustfunktionen zum Einsatz: die Vorhersage des nächsten Tokens für Text und Diffusion für Bilder.

Anzeige
Anzeige

Um Text und Bilder gemeinsam zu verarbeiten, werden Bilder in Sequenzen von Bildausschnitten (Patches) umgewandelt. Das ermöglicht es dem Modell, sowohl Text-Tokens als auch Bild-Patches in einer einzigen Sequenz zu verarbeiten. Eine spezielle Aufmerksamkeitsmaske erlaubt es dem Modell zudem, Zusammenhänge innerhalb von Bildern zu erfassen.

Dieser integrierte Ansatz unterscheidet sich auch von Methoden wie Metas Chameleon, die Bilder in diskrete Tokens umwandeln und dann wie Text behandeln. Laut dem Forschungsteam behält Transfusion die kontinuierliche Repräsentation von Bildern bei und vermeidet so Informationsverluste durch Quantisierung.

Transfusion erreicht hohe Bild- und Textqualität in ersten Tests

Die Experimente zeigen auch, dass Transfusion effizienter skaliert als vergleichbare Ansätze. Bei der Bildgenerierung erreichte es mit deutlich weniger Rechenaufwand ähnliche Ergebnisse wie spezialisierte Modelle. Überraschenderweise verbesserte die Integration von Bilddaten auch die Textverarbeitungsfähigkeiten.

Bild: Meta

Die Forschenden trainierten ein 7-Milliarden-Parameter-Modell auf 2 Billionen Text- und Bild-Tokens. Dieses Modell erzielte bei der Bildgenerierung ähnliche Ergebnisse wie etablierte Systeme wie DALL-E 2, konnte aber zusätzlich auch Text verarbeiten.

Die Forscher sehen Potenzial für weitere Verbesserungen, etwa durch die Integration zusätzlicher Modalitäten oder alternative Trainingsmethoden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta AI stellt mit "Transfusion" einen neuen Ansatz vor, der Sprachmodelle und Bildgenerierung in einem einheitlichen KI-System kombiniert. Das Modell erreicht bei der Bildgenerierung ähnliche Ergebnisse wie spezialisierte Systeme und verbessert gleichzeitig die Textverarbeitung.
  • Transfusion nutzt eine einzige Transformer-Architektur für alle Modalitäten, die end-to-end auf Text- und Bilddaten trainiert wird. Dabei werden für Text und Bilder unterschiedliche Verlustfunktionen verwendet: die Vorhersage des nächsten Tokens für Text und Diffusion für Bilder.
  • In ersten Tests erreichte ein 7-Milliarden-Parameter-Modell, das auf 2 Billionen Text- und Bild-Tokens trainiert wurde, bei der Bildgenerierung ähnliche Ergebnisse wie etablierte Systeme wie DALL-E 2, konnte aber zusätzlich auch Text verarbeiten. Die Forscher sehen Potenzial für weitere Verbesserungen durch die Integration zusätzlicher Modalitäten oder alternative Trainingsmethoden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!