Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Forschende zeigen, wie Stable Diffusion Gedanken lesen kann. Die Methode rekonstruiert mit verblüffender Genauigkeit Bilder aus MRT-Aufnahmen.

Forschende setzen bereits seit Jahren KI-Modelle ein, um Informationen aus dem menschlichen Gehirn zu dekodieren. Im Kern werden dabei vorher aufgezeichnete MRT-Aufnahmen als Input für ein generatives KI-Modell für Text oder Bild genutzt.

Anfang 2018 zeigte etwa eine Gruppe Forschende aus Japan, wie ein neuronales Netz Bilder aus MRT-Aufnahmen rekonstruierte. 2019 rekonstruierte eine Gruppe Bilder aus den Neuronen von Affen und Metas Forschungsgruppe um Jean-Remi King veröffentlicht seit Jahren neue Arbeiten, die etwa Sprache aus MRT-Daten ableiten.

Im Oktober 2022 zeigte ein Team der University of Texas, Austin, dass GPT-Modelle neben Sprache auch Text aus MRT-Daten ableiten können. Der Text beschreibt Inhalte, die eine Person in einem Video gesehen hat.

Anzeige
Anzeige

Im November 2022 zeigten Forschende der National University of Singapore, der Chinese University of Hongkong und der Stanford University mit MinD-Vis, wie sich mit Diffusionsmodellen, die aktuelle generative KI-Modelle wie Stable Diffusion, DALL-E oder Midjourney antreiben, Bilder aus MRT-Aufnahmen rekonstruieren lassen - mit einer deutlich höheren Genauigkeit damals verfügbare Ansätze.

Stable Diffusion kann ohne neues Training Gehirn-Bilder rekonstruieren

Forschende der Graduate School of Frontier Biosciences, Osaka University und CiNet, NICT, Japan setzen nun ebenfalls ein Diffusionsmodell - genauer Stable Diffusion - ein, um visuelle Erfahrungen aus MRI-Daten zu rekonstruieren.

Dabei verzichtet das Team auf das sonst oft notwendige aufwendige Training und Feintuning des komplexen KI-Modells. Trainiert werden müssen lediglich einfache lineare Modelle, die die MRT-Signale der unteren und oberen visuellen Hirnregionen auf einzelne Stable-Diffusion-Komponenten abbilden.

Konkret bilden die Forschenden zwei Hirnregionen ab und verwenden sie als Input für Bild- und Text-Encoder. Dabei werden die unteren Hirnregionen auf den Bild-Encoder und die oberen auf den Text-Encoder abgebildet. So soll das System einfache und semantische Bildeigenschaften für die Rekonstruktion nutzen können.

Die Forschenden rekonstruieren mit Stable Diffusion eine Reihe von Bildern, die von Versuchspersonen in MRT-Scannern betrachtet wurden. | Bild: Tagaki et al.

Die Forschenden verwenden für ihr Experiment MRI-Aufnahmen aus dem Natural Scenes Dataset (NSD) und überprüfen, ob sie mit Stable Diffusion rekonstruieren können, welche Motive die Versuchspersonen gesehen haben.

Empfehlung

Sie zeigen, dass die Kombination von Bild- und Textkodierung die genaueste Rekonstruktion ermöglicht. Es gibt Unterschiede in der Genauigkeit zwischen verschiedenen Personen - diese korrelieren jedoch auch mit der Qualität der MRT-Aufnahmen, so das Team.

Die Rekonstruktion per Stable Diffusion mit ausschließlich niedrigen Hirnregionen (z), ausschließlich höheren (c) und in Kombination. | Bild: Tagaki et al.

MRT-Rekonstruktion führt zu besserem Verständnis von Diffusionsmodellen

Die Qualität der Rekonstruktionen liegt nach Angaben des Teams auf dem Niveau der derzeit besten Methoden, ohne jedoch das dort notwendige Training der verwendeten KI-Modelle zu erfordern.

Umgekehrt untersucht das Team mit aus den MRT-Daten gewonnenen Modellen auch einzelne Bausteine von Stable Diffusion, z.B. wie semantische Inhalte im inversen Diffusionsprozess entstehen oder welche Prozesse im U-Netzwerk ablaufen.

Ferner nimmt das Team eine quantitative Interpretation der Bildtransformationen in verschiedenen Diffusionsstadien vor. Damit wollen die Forschenden aus biologischer Perspektive einen Beitrag zum besseren Verständnis der zwar weit verbreiteten, aber noch wenig erforschten Diffusionsmodelle leisten.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Japanische Forscherinnen und Forscher rekonstruierten mit Hilfe von Stable Diffusion visuelle Bilder aus MRT-Daten.
  • Bei dieser Methode werden die tiefen und hohen visuellen Regionen direkt auf die Bild- und Textkodierer von Stable Diffusion abgebildet.
  • Die Kombination dieser beiden Inputs ermöglicht nach Angaben des Teams eine präzise Rekonstruktion, die die Bildkomposition und den semantischen Inhalt annähernd korrekt wiedergibt.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!