Inhalt
summary Zusammenfassung

X-Decoder kann eine Vielzahl von Bildverarbeitungs- und Bildsprachaufgaben übernehmen. Die Technik könnte spezialisierte KI-Modelle ablösen.

Anzeige

Im Feld des visuellen Verstehens gibt es zahlreiche spezialisierte KI-Modelle, die Bilder auf unterschiedlichen Granularitätsebenen analysieren und ganz unterschiedliche Aufgaben wie die Bildklassifizierung, Bildbeschriftung oder Objekterkennung erfüllen.

In den vergangenen Jahren, angetrieben durch den Erfolg der 2017 vorgestellten Transformer-Architektur, geht der Trend hin zur Entwicklung von Allzweckmodellen, die auf zahlreiche Bildverarbeitungs- und Bildsprachaufgaben angewandt werden.

Laut Forschenden der University of Wisconsin-Madison, der UCLA und von Microsoft konzentriert sich ein Großteil der Methoden dabei jedoch auf das Verarbeiten auf Bild- oder Bildregionsebene und nicht auf das Verstehen auf Pixelebene. Ansätze, die sich auf die Pixelebene konzentrieren, seien dagegen auf spezifische Aufgaben zugeschnitten und konnten bislang nicht generalisiert werden.

Anzeige
Anzeige

X-Decoder bringt nahtlose Segmentierung auf Pixelebene

Das Team stellt X-Decoder vor, einen generalistischen Decoder, der Bilder auf allen Granularitätsebenen verarbeiten kann und zahlreiche Bildverarbeitungs- und Bildsprachaufgaben leistet, darunter etwa die Bildsegmentierung auf Pixelebene oder Bildbeschreibungen. X-Decoder kann zudem mit generativen KI-Modellen wie Stable Diffusion kombiniert werden. In diesem Szenario ermöglicht es eine pixelgenaue Bildbearbeitung.

X-Decoder kann nach dem Training zahlreiche Bildsegmentierungsaufgaben erfüllen. | Bild: Zou, Dou, Yang et al.

X-Decoder ist im Kern ein Bild-Modell mit Transformer-Encoder, das mit einem Datensatz von mehreren Millionen Bild-Text-Paaren sowie einer begrenzten Anzahl von Segmentierungsdaten trainiert wurde. Als Input können ein Bild-Encoder und ein Text-Encoder dienen. Das Modell kann zwei Arten von Output ausgeben: Masken auf Pixelebene und Semantik auf Token-Level, also etwa Text-Beschreibungen.

Je nach Aufgabe kommen nur bestimmte Teile des Systems zum Einsatz. | Bild: Zou, Dou, Yang et al.

Mit der Kombination aus verschiedenen Input- und Output-Möglichkeiten kann X-Decoder die unterschiedlichen Aufgaben übernehmen. Die Verwendung eines einzigen Text-Encoders erleichtere zudem die Synergie zwischen Aufgaben, so das Team.

X-Decoder zeigt beeindruckende Leistung

X-Decoder zeige eine starke Transferleistung bei zahlreichen Aufgaben, sowohl in Zero-Shot-, als auch in Szenarien mit Nachtraining. So erreiche X-Decoder Bestleistungen in einigen besonders schweren Segmentierungsaufgaben, etwa der referenzierenden Segmentierung.

Zudem biete das KI-Modell bessere oder konkurrenzfähige Leistung zu anderen generalistischen und spezialisierten Modellen im Nachtraining. X-Decoder sei zudem so flexibel, dass es auch neuartige Aufgaben wie die referenzierende Beschriftung, also die referenzierende Segmentierung plus Beschriftung, erfüllen könne.

Empfehlung

Wir stellen X-Decoder vor, ein Modell, das nahtlos das Verstehen von Bildsprache auf Pixel- und Bildebene unterstützt. Mit einem einfachen und verallgemeinerten Design kann X-Decoder mühelos allgemeine Segmentierungs-, Referenzsegmentierungs- und VL-Aufgaben vereinen und unterstützen, wobei eine starke Verallgemeinerbarkeit und eine konkurrenzfähige oder sogar SoTA-Leistung erreicht wird. Wir hoffen, dass diese Arbeit ein Licht auf das Design der nächsten Generation von Allzweck-Vision-Systemen werfen kann.

Aus dem Paper.

Mehr Informationen gibt es auf der GitHub-Seite von X-Decoder. Den Code gibt es ebenfalls auf GitHub.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • X-Decoder löst eine Vielzahl von Bildverarbeitungs- und Bildsprachaufgaben, einschließlich Bildsegmentierung auf Pixelebene und Abfragen auf Bildebene.
  • X-Decoder baut auf einem Vision-Backbone und einem Transformer-Encoder auf und nutzt als Input Bild- und Text-Encoder. Als Output dienen Masken auf Pixelebene und Semantik auf Token-Level, also etwa Text-Beschreibungen.
  • X-Decoder verfügt über eine starke Zero-Shot- und Nachtrainings-Leistung bei vielen Segmentierungs- und Bildsprachaufgaben und erreicht bei mehreren Benchmarks eine Spitzenleistung.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!