Inhalt
summary Zusammenfassung

Ein neues KI-System rekonstruiert Bilder aus MRT-Daten um zwei Drittel genauer als ältere Systeme. Möglich ist das durch mehr Daten und Diffusion-Modelle.

Anzeige

Können KI-Modelle Gedanken rekonstruieren? Experimente mit großen Sprachmodellen etwa von Metas Forschungsgruppe um Jean-Remi King versuchen, Wörter oder Sätze aus MRT-Daten mit Sprachmodellen abzuleiten.

Kürzlich zeigte eine Forschungsgruppe ein KI-System, das die MRT-Daten einer Person, die ein Video anschaut, in Text, der die Ereignisse in Teilen beschreibt, umwandelt. In einem weiteren Experiment wollen Forschende Inhalte von Affen-Neuronen visualisieren.

Diese Technologien könnten einmal zu fortschrittlichen Interfaces führen, mit denen etwa Menschen mit Behinderung besser mit ihrer Umgebung kommunizieren oder einen Computer steuern können.

Anzeige
Anzeige

Eine neue Studie setzt jetzt auf Diffusion-Modelle, um aus menschlichen MRT-Daten Bilder zu rekonstruieren. Diffusion-Modelle stecken auch in fortschrittlichen Bild-KI-Systemen wie DALL-E 2 oder Stable Diffusion. Sie können aus Bildrauschen Bilder herausarbeiten.

MinD-Vis setzt auf Diffusion und 340 Stunden MRT-Aufnahmen

Forschende der National University of Singapore, der Chinese University of Hongkong und der Stanford University zeigen "Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding" - kurz MinD-Vis.

Ziel der Arbeit ist ein Diffusion-basiertes KI-Modell, das visuelle Stimuli von Gehirnaufnahmen dekodieren und so ein Fundament für die Verknüpfung von menschlichem und maschinellem Sehen legen kann.

MinD-Vis lernt Bilder aus MRT-Bildern zu rekonstruieren. | Bild: Chen et al.

Zuerst lernt das KI-System per selbst-überwachtem Lernen eine effektive Repräsentation der MRT-Daten. Embeddings dieser Daten dienen dann als Kondition für die Bild-Generierung des Diffusion-Modells.

Für das Training setzt das Team auf Daten des "Human Connectome Project" und des "Generic Object Decoding Dataset". Insgesamt umfassen die Trainingsdaten so 136.000 MRT-Segmente von 340 Stunden MRT-Aufnahmen, der bisher größte Datensatz für ein Gehirnlese-KI-System.

Empfehlung

MinD-Vis erfasst semantische Details und Bildeigenschaften

Während der erste Datensatz ausschließlich aus MRT-Daten besteht, umfasst der zweite 1.250 verschiedene Bilder aus 200 Klassen. 50 der Bilder hielt das Team für Tests zurück.

Für die weitere Validierung ihres Ansatzes setzten die Forschenden zudem auf das "Brain, Object, Landscape Dataset", das 5.254 MRT-Aufnahmen plus gesehene Bilder umfasst.

Laut der Veröffentlichung hängt MinD-Vis ältere Modelle deutlich ab: In der Erfassung semantischer Inhalte ist das System 66 Prozent und in der Qualität der generierten Bilder 41 Prozent besser.

Am Ende ist das System damit jedoch noch immer weit davon entfernt, Gedanken zuverlässig zu lesen: Trotz der Verbesserung liegt die Genauigkeit bei der Erfassung der semantischen Inhalte im Test bei nur 23,9 Prozent.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Die Bildqualität und semantische Erfassung sind bei MinD-Vis deutlich besser als bei bisherigen Systemen, die Genauigkeit ist weiter gering. | Bild: Chen et al.

Die Qualität der rekonstruierten Bilder schwanke zudem zwischen verschiedenen Personen. Ein bekanntes Phänomen im Forschungsfeld, schreibt das Team. Zudem seien viele der getesteten Bildklassen nicht im Trainingsdatensatz enthalten gewesen. Mehr Daten könnten die Qualität des Systems also weiter verbessern.

Weitere Informationen und mehr Beispiele gibt es auf der Projektseite von MinD-Vis.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Dekodierung von MRT-Aufnahmen per KI-System hat zahlreiche Anwendungen in Medizin, Wissenschaft und Industrie.
  • Das neue System MinD-Vis dekodiert gesehene Bilder aus MRT-Aufnahmen und setzt dafür auf Diffusion-Modelle. Das Modell ist 66 Prozent genauer als vorherige Systeme.
  • Trotz dieser Verbesserung liegt die Genauigkeit der Bild-Rekonstruktion in Tests lediglich bei 23,9 Prozent. Das System könnte durch mehr Daten weiter verbessert werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!