Forscher stellen mit Janus ein neuartiges KI-Modell vor, das sowohl beim Verständnis als auch bei der Generierung von Bildern Spitzenleistungen erzielt.
Ein Forscherteam hat mit Janus ein innovatives KI-Modell entwickelt, das multimodales Verständnis und visuelle Generierung in einem einzigen System vereint. Laut den Entwicklern zeichnet sich Janus durch seine Flexibilität und Leistungsfähigkeit aus, die auf einem neuartigen Ansatz zur Verarbeitung visueller Informationen basieren.
Das Hauptmerkmal von Janus ist die Entkopplung der visuellen Kodierung für Verstehens- und Generierungsaufgaben. Die Architektur von Janus basiert auf einem autoregressiven Transformer-Modell.
Im Gegensatz zu vergleichbaren Modellen verwendet Janus jedoch separate Encoder für verschiedene Eingabetypen wie Text, Bilder für das Verstehen und Bilder für die Generierung. Diese Encoder wandeln die Rohdaten in Merkmale um, die dann vom Transformer verarbeitet werden.
Laut den Forscher erzielt Janus in mehreren Benchmarks für multimodales Verständnis und visuelle Generierung Spitzenergebnisse im Vergleich mit gleich großen Modellen. Bei multimodalen Verständnisaufgaben übertrifft Janus mit nur 1,3 Milliarden Parametern sogar einige aufgabenspezifische Modelle mit deutlich mehr Parametern.
Auch bei der visuellen Generierung zeigt Janus starke Leistungen und übertrifft einige bekannte Modelle wie DALL-E 2. Die Ergebnisse liegen in der Qualität zwar weit hinter aktuellen Spitzenmodellen wie FLUX - dafür ist das Modell deutlich kleiner und eine weitere Skalierung dürfte bessere Ergebnisse ermöglichen.
Flexibilität als Schlüsselmerkmal
Ein besonderer Vorteil von Janus ist laut den Entwicklern seine Flexibilität und einfache Erweiterbarkeit. Durch die Entkopplung der visuellen Kodierung können für Verständnis- und Generierungsaufgaben jeweils die am besten geeigneten Encoder gewählt werden, ohne Kompromisse eingehen zu müssen.
Zudem lässt sich das Modell leicht um zusätzliche Modalitäten wie 3D-Punktwolken, taktile Daten oder EEG-Signale erweitern. Das verleihe Janus das Potenzial, zu einem noch leistungsfähigeren multimodalen Generalistenmodell zu werden, erklären die Forscher.
Die Kombination aus starker Leistung, hoher Flexibilität und Erweiterbarkeit macht Janus nach Ansicht der Entwickler zu einem vielversprechenden Kandidaten für die nächste Generation vereinheitlichter multimodaler Modelle. Mehr Informationen und das Modell gibt es auf GitHub.