Inhalt
summary Zusammenfassung

Ein neuer Ansatz von Forschenden aus Hongkong und Großbritannien zur Umwandlung von Bildern in digitale Repräsentationen (Tokens) soll es ermöglichen, die wesentlichen Informationen in einer hierarchischen Struktur zu erfassen.

Anzeige

Die Besonderheit des neuen Ansatzes liegt darin, wie diese Token angeordnet sind. Anstatt alle Bildinformationen gleichmäßig auf die Token zu verteilen, werden sie in einer hierarchischen Struktur organisiert.

Dabei erfassen die ersten Token die wichtigsten visuellen Merkmale des Bildes, wie etwa grobe Formen und Strukturen. Nachfolgende Token fügen dann schrittweise immer feinere Details hinzu, bis das Bild vollständig repräsentiert ist.

Diagramm: Architektur zur Bildrekonstruktion mit kausalen Vision Transformer als Encoder und Diskretem Interpretieren Transformer als Decoder, die RGB-Bilddaten sowie Text als Eingaben nutzen.
Bei der vorgestellten Tokenisierungsmethode erfassen die ersten Tokens die wichtigsten semantischen Informationen. | Bild: Wen et al.

Dieses Prinzip ähnelt einem Verfahren aus der Statistik, der sogenannten Hauptkomponentenanalyse. Hierbei werden Daten in Komponenten zerlegt, die in absteigender Reihenfolge zur Erklärung der Unterschiede (Varianz) in den Daten beitragen. Die Forscher:innen haben dieses Konzept nun auf die Tokenisierung von Bildern übertragen und so eine neuartige Bilddarstellung geschaffen, die kompakt und besser verständlich ist.

Anzeige
Anzeige
Vergleichsmatrix: Schrittweise Bildrekonstruktion von drei Szenen (Stillleben, Stadtbild, Weide) mit zunehmender Token-Anzahl von 1 bis 256.
Anders als herkömmliche Methoden erzeugt das System bereits mit wenigen Tokens aussagekräftige Ergebnisse und verfeinert diese schrittweise - von grundlegenden Strukturen bei einem Token bis zu präzisen Details bei 256 Tokens. | Bild: Wen et al.

Ein weiterer Vorteil der neuen Methode ist die Trennung von bedeutungstragenden (semantischen) Informationen und reinen Bilddetails. In früheren Ansätzen waren diese oft miteinander vermischt, was die Interpretation der erlernten Repräsentationen erschwerte.

Die Forschenden lösten dieses Problem, indem sie einen diffusionsbasierten Decoder einsetzten, der die Bilder schrittweise von groben Strukturen zu feinen Details rekonstruiert. Dadurch konzentrieren sich die Tokens auf die semantisch bedeutsamen Informationen, während die Bilddetails separat behandelt werden.

Ansatz verbessert die Rekonstruktionsqualität

Experimente zeigen, dass die neue Methode die Rekonstruktionsqualität, also die Ähnlichkeit zwischen dem ursprünglichen Bild und seiner tokenisierten Darstellung, im Vergleich zum bisherigen Stand der Technik um fast zehn Prozent verbessert.

Zudem benötigt sie nur einen Bruchteil der Token, um vergleichbare Ergebnisse zu erzielen. Auch bei der Verwendung der erlernten Repräsentationen für weiterführende Aufgaben, wie die Klassifizierung von Bildern, zeigte der neue Ansatz bessere Ergebnisse als bisherige Verfahren.

Bilderserie mit Frequenzspektren: Zunehmend detailliertere Rekonstruktionen desselben Bildes mit entsprechenden Frequenzleistungsplots zur Veranschaulichung der semantisch-spektralen Kopplung
Mit zunehmender Tokenzahl von links nach rechts verbessert sich die Bildrekonstruktion, erreicht bei dem neuen Ansatz jedoch mit weniger Token ein höheres Niveau. | Bild: Wen et al.

Die hierarchische Struktur der Token spiegelt die Art und Weise wider, wie das menschliche Gehirn visuelle Informationen verarbeitet: von groben Formen und Strukturen hin zu immer feineren Details. Diese Erkenntnisse eröffnen laut der Untersuchung neue Möglichkeiten für die Entwicklung von KI-Systemen zur Bildanalyse und -generierung, die sich stärker an der menschlichen Wahrnehmung orientieren.

Empfehlung

Potenzial für verständlichere und effizientere KI-Systeme

Durch die verbesserte Interpretierbarkeit der erlernten Repräsentationen könnte es in Zukunft leichter werden, die Entscheidungen von KI-Systemen nachzuvollziehen und zu erklären. Gleichzeitig ermöglicht die kompaktere Darstellung der Bildinformationen eine effizientere Verarbeitung und Speicherung.

Die Forschenden betonen, dass dies ein wichtiger Schritt in Richtung einer stärker an der menschlichen Wahrnehmung orientierten Bildverarbeitung ist, sehen aber auch noch Raum für Verbesserungen. In zukünftigen Arbeiten gelte es, den Ansatz weiter zu verfeinern und auf eine breitere Palette von Anwendungen zu übertragen.

Die Tokenisierung stellt sowohl bei Bild- als auch Sprachmodellen einen wichtigen Bestandteil der Leistungsfähigkeit dar. Auch bei der digitalen Repräsentation von Textbausteinen gibt es immer wieder neue Ansätze, die in Zukunft zu besseren Modellen führen könnten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende aus Hongkong und Großbritannien haben eine neue Methode entwickelt, die Bilder in hierarchisch angeordnete Token umwandelt. Dabei erfassen die ersten Token die wichtigsten visuellen Merkmale, während nachfolgende Token schrittweise feinere Details hinzufügen.
  • Die Methode verbessert die Rekonstruktionsqualität von Bildern um fast zehn Prozent im Vergleich zu bisherigen Verfahren und benötigt dabei deutlich weniger Token. Ein diffusionsbasierter Decoder trennt dabei semantische Informationen von reinen Bilddetails.
  • Der Ansatz orientiert sich an der menschlichen Wahrnehmung, die ebenfalls von groben Strukturen zu Details übergeht. Das macht KI-Systeme verständlicher und effizienter bei der Bildanalyse und -generierung, während die Token kompakter gespeichert werden können.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!