Inhalt
summary Zusammenfassung

Forscher stellen mit Janus ein neuartiges KI-Modell vor, das sowohl beim Verständnis als auch bei der Generierung von Bildern Spitzenleistungen erzielt.

Anzeige

Ein Forscherteam hat mit Janus ein innovatives KI-Modell entwickelt, das multimodales Verständnis und visuelle Generierung in einem einzigen System vereint. Laut den Entwicklern zeichnet sich Janus durch seine Flexibilität und Leistungsfähigkeit aus, die auf einem neuartigen Ansatz zur Verarbeitung visueller Informationen basieren.

Das Hauptmerkmal von Janus ist die Entkopplung der visuellen Kodierung für Verstehens- und Generierungsaufgaben. Die Architektur von Janus basiert auf einem autoregressiven Transformer-Modell.

Im Gegensatz zu vergleichbaren Modellen verwendet Janus jedoch separate Encoder für verschiedene Eingabetypen wie Text, Bilder für das Verstehen und Bilder für die Generierung. Diese Encoder wandeln die Rohdaten in Merkmale um, die dann vom Transformer verarbeitet werden.

Anzeige
Anzeige

Laut den Forscher erzielt Janus in mehreren Benchmarks für multimodales Verständnis und visuelle Generierung Spitzenergebnisse im Vergleich mit gleich großen Modellen. Bei multimodalen Verständnisaufgaben übertrifft Janus mit nur 1,3 Milliarden Parametern sogar einige aufgabenspezifische Modelle mit deutlich mehr Parametern.

Vergleichstabelle: KI-generierte Bilder von SDXL, LlamaGen und Janus, zeigt Landmarken und Tiere in verschiedenen Stilen und Interpretationen.
KI-generierte Bilder von SDXL, LlamaGen und Janus im Vergleich. | Bild: Wu et al.

Auch bei der visuellen Generierung zeigt Janus starke Leistungen und übertrifft einige bekannte Modelle wie DALL-E 2. Die Ergebnisse liegen in der Qualität zwar weit hinter aktuellen Spitzenmodellen wie FLUX - dafür ist das Modell deutlich kleiner und eine weitere Skalierung dürfte bessere Ergebnisse ermöglichen.

Flexibilität als Schlüsselmerkmal

Ein besonderer Vorteil von Janus ist laut den Entwicklern seine Flexibilität und einfache Erweiterbarkeit. Durch die Entkopplung der visuellen Kodierung können für Verständnis- und Generierungsaufgaben jeweils die am besten geeigneten Encoder gewählt werden, ohne Kompromisse eingehen zu müssen.

Zudem lässt sich das Modell leicht um zusätzliche Modalitäten wie 3D-Punktwolken, taktile Daten oder EEG-Signale erweitern. Das verleihe Janus das Potenzial, zu einem noch leistungsfähigeren multimodalen Generalistenmodell zu werden, erklären die Forscher.

Die Kombination aus starker Leistung, hoher Flexibilität und Erweiterbarkeit macht Janus nach Ansicht der Entwickler zu einem vielversprechenden Kandidaten für die nächste Generation vereinheitlichter multimodaler Modelle. Mehr Informationen und das Modell gibt es auf GitHub.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben mit Janus ein KI-Modell entwickelt, das multimodales Verständnis und visuelle Generierung in einem System vereint. Es verwendet separate Encoder für verschiedene Eingabetypen wie Text und Bilder.
  • In Benchmarks für multimodales Verständnis und visuelle Generierung erzielt Janus mit nur 1,3 Milliarden Parametern Spitzenergebnisse im Vergleich zu gleich großen Modellen. Bei Verständnisaufgaben übertrifft es sogar einige größere, aufgabenspezifische Modelle.
  • Laut den Entwicklern zeichnet sich Janus durch hohe Flexibilität und einfache Erweiterbarkeit aus. Das Modell lässt sich um zusätzliche Modalitäten wie 3D-Punktwolken oder taktile Daten erweitern und könnte so zu einem leistungsfähigen multimodalen Generalistenmodell werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!