Janus verbindet multimodales Verstehen und visuelle Generierung durch innovative Architektur
Forscher stellen mit Janus ein neuartiges KI-Modell vor, das sowohl beim Verständnis als auch bei der Generierung von Bildern Spitzenleistungen erzielt.
Ein Forscherteam hat mit Janus ein innovatives KI-Modell entwickelt, das multimodales Verständnis und visuelle Generierung in einem einzigen System vereint. Laut den Entwicklern zeichnet sich Janus durch seine Flexibilität und Leistungsfähigkeit aus, die auf einem neuartigen Ansatz zur Verarbeitung visueller Informationen basieren.
Das Hauptmerkmal von Janus ist die Entkopplung der visuellen Kodierung für Verstehens- und Generierungsaufgaben. Die Architektur von Janus basiert auf einem autoregressiven Transformer-Modell.
Im Gegensatz zu vergleichbaren Modellen verwendet Janus jedoch separate Encoder für verschiedene Eingabetypen wie Text, Bilder für das Verstehen und Bilder für die Generierung. Diese Encoder wandeln die Rohdaten in Merkmale um, die dann vom Transformer verarbeitet werden.
Laut den Forscher erzielt Janus in mehreren Benchmarks für multimodales Verständnis und visuelle Generierung Spitzenergebnisse im Vergleich mit gleich großen Modellen. Bei multimodalen Verständnisaufgaben übertrifft Janus mit nur 1,3 Milliarden Parametern sogar einige aufgabenspezifische Modelle mit deutlich mehr Parametern.

Auch bei der visuellen Generierung zeigt Janus starke Leistungen und übertrifft einige bekannte Modelle wie DALL-E 2. Die Ergebnisse liegen in der Qualität zwar weit hinter aktuellen Spitzenmodellen wie FLUX - dafür ist das Modell deutlich kleiner und eine weitere Skalierung dürfte bessere Ergebnisse ermöglichen.
Flexibilität als Schlüsselmerkmal
Ein besonderer Vorteil von Janus ist laut den Entwicklern seine Flexibilität und einfache Erweiterbarkeit. Durch die Entkopplung der visuellen Kodierung können für Verständnis- und Generierungsaufgaben jeweils die am besten geeigneten Encoder gewählt werden, ohne Kompromisse eingehen zu müssen.
Zudem lässt sich das Modell leicht um zusätzliche Modalitäten wie 3D-Punktwolken, taktile Daten oder EEG-Signale erweitern. Das verleihe Janus das Potenzial, zu einem noch leistungsfähigeren multimodalen Generalistenmodell zu werden, erklären die Forscher.
Die Kombination aus starker Leistung, hoher Flexibilität und Erweiterbarkeit macht Janus nach Ansicht der Entwickler zu einem vielversprechenden Kandidaten für die nächste Generation vereinheitlichter multimodaler Modelle. Mehr Informationen und das Modell gibt es auf GitHub.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.