Janus verbindet multimodales Verstehen und visuelle Generierung durch innovative Architektur

19. Oktober 2024

Deepseek AI

Forscher stellen mit Janus ein neuartiges KI-Modell vor, das sowohl beim Verständnis als auch bei der Generierung von Bildern Spitzenleistungen erzielt.

Ein Forscherteam hat mit Janus ein innovatives KI-Modell entwickelt, das multimodales Verständnis und visuelle Generierung in einem einzigen System vereint. Laut den Entwicklern zeichnet sich Janus durch seine Flexibilität und Leistungsfähigkeit aus, die auf einem neuartigen Ansatz zur Verarbeitung visueller Informationen basieren.

Das Hauptmerkmal von Janus ist die Entkopplung der visuellen Kodierung für Verstehens- und Generierungsaufgaben. Die Architektur von Janus basiert auf einem autoregressiven Transformer-Modell.

Im Gegensatz zu vergleichbaren Modellen verwendet Janus jedoch separate Encoder für verschiedene Eingabetypen wie Text, Bilder für das Verstehen und Bilder für die Generierung. Diese Encoder wandeln die Rohdaten in Merkmale um, die dann vom Transformer verarbeitet werden.

Laut den Forscher erzielt Janus in mehreren Benchmarks für multimodales Verständnis und visuelle Generierung Spitzenergebnisse im Vergleich mit gleich großen Modellen. Bei multimodalen Verständnisaufgaben übertrifft Janus mit nur 1,3 Milliarden Parametern sogar einige aufgabenspezifische Modelle mit deutlich mehr Parametern.

Vergleichstabelle: KI-generierte Bilder von SDXL, LlamaGen und Janus, zeigt Landmarken und Tiere in verschiedenen Stilen und Interpretationen. — KI-generierte Bilder von SDXL, LlamaGen und Janus im Vergleich. | Bild: Wu et al.

Auch bei der visuellen Generierung zeigt Janus starke Leistungen und übertrifft einige bekannte Modelle wie DALL-E 2. Die Ergebnisse liegen in der Qualität zwar weit hinter aktuellen Spitzenmodellen wie FLUX - dafür ist das Modell deutlich kleiner und eine weitere Skalierung dürfte bessere Ergebnisse ermöglichen.

Flexibilität als Schlüsselmerkmal

Ein besonderer Vorteil von Janus ist laut den Entwicklern seine Flexibilität und einfache Erweiterbarkeit. Durch die Entkopplung der visuellen Kodierung können für Verständnis- und Generierungsaufgaben jeweils die am besten geeigneten Encoder gewählt werden, ohne Kompromisse eingehen zu müssen.

Zudem lässt sich das Modell leicht um zusätzliche Modalitäten wie 3D-Punktwolken, taktile Daten oder EEG-Signale erweitern. Das verleihe Janus das Potenzial, zu einem noch leistungsfähigeren multimodalen Generalistenmodell zu werden, erklären die Forscher.

Die Kombination aus starker Leistung, hoher Flexibilität und Erweiterbarkeit macht Janus nach Ansicht der Entwickler zu einem vielversprechenden Kandidaten für die nächste Generation vereinheitlichter multimodaler Modelle. Mehr Informationen und das Modell gibt es auf GitHub.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Janus verbindet multimodales Verstehen und visuelle Generierung durch innovative Architektur

Flexibilität als Schlüsselmerkmal

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.