Eine Künstliche Intelligenz kann Gehirnsignale in Text umwandeln. Bisher funktioniert das nur mit 50 Sätzen, aber die Forscher wittern eine große Zukunft.
Forscher der Universität Kalifornien in San Francisco haben eine Künstliche Intelligenz entwickelt, die Gehirnaktivität in Text umwandelt. Die Forscher nutzen dafür eine KI-Architektur, wie sie auch für KI-gestützte Übersetzungsprogramme eingesetzt wird - eine sogenannte Encoder-Decoder-KI. Ein Encoder genanntes Netzwerk übersetzt Eingaben wie Sprache oder Text in Zahlen und gibt sie an das Decoder-Netzwerk weiter. Der Decoder verwandelt die Ausgabe des Encoders in eine Übersetzung.
Die Forscher nutzen für ihre Hirn-Transkription eine leicht angepasste Version dieser Architektur. Als Eingabe für den Encoder dienen Signale eines Elektrokortikogramms (ECoG), das sind Elektroden, die direkt auf der Hirnrinde aufliegen. Die durch den Encoder verarbeiteten Signale werden anschließend vom Decoder in Text verwandelt.
Für das KI-Training nutzten die Forscher Daten von vier Epilepsie-Patienten mit bereits implantierten ECoGs. Die Patienten lasen etwa 50 Sätze mit etwa 250 verschiedenen Wörtern mehrfach vor, während die Forscher die Gehirnaktivität aufzeichneten. Die Gehirnsignale wurden anschließend dem Encoder der KI übergeben, wanderten von dort an den Decoder, der die Signale entlang der Trainingsdaten in Sätze umwandelte.
Für ein besseres Ergebnis vergleicht die KI ihre Resultate mit den zuvor für das KI-Training eingesprochenen Sätzen. So lernt sie, welche Gehirndaten des Encoders für welche Wörter stehen.
Gehirnlesen in engem Rahmen
Nach dem Training unterschied sich die Genauigkeit der KI-gestützten Hirn-Transkription von Person zu Person. In allen Fällen gelang es spätestens nach 15 Trainingsdurchgängen, die Fehlerrate auf unter 25 Prozent zu drücken.
In einem Fall mussten im Schnitt sogar nur drei Prozent jedes Satzes korrigiert werden. Zum Vergleich: Professionelle menschliche Transkripteure haben eine Fehlerrate von circa acht Prozent.
Aktuell funktioniert die KI jedoch nur im Rahmen der 50 trainierten Sätze – und macht selbst hier Fehler. Die Forscher wollen die KI daher weiterentwickeln.
Steigerungspotenzial: Mehr Trainingsdaten und Transferlernen
Aktuell hat die Hirnsatz-KI zwei Schwächen: Sprach-KIs für Übersetzungen werden häufig mit bis zu einer Million Sätzen trainiert. Ein einzelner Patient versorgt die KI der Forscher dagegen selbst im besten Fall nur mit ein paar tausend Sätzen. Und: Jeder Patient muss seine eigene KI trainieren, passend zu seinen Hirndaten.
Dieser Patient muss darüber hinaus sprechen können, andernfalls kann er das benötigte Trainingsmaterial nicht erstellen. Ein Einsatz für Patienten, die von einer solchen KI besonders profitieren würden, etwa mit Locked-In-Syndrom, ist so nicht möglich.
Für den Mangel an Trainingsdaten haben die Forscher bereits Lösungsansätze: In ersten Tests zeigte sich, dass die Genauigkeit der KI durch sogenanntes Transferlernen (Definition) erhöht werden kann.
Eine von Patient A trainierte KI konnte von Patient B weiter trainiert werden und war genauer als eine komplett neu trainierte Variante. Es sei außerdem denkbar, eine fertig trainierte Sprach-KI für Übersetzungen zu modifizieren.
So könnte der Encoder der Übersetzungs-KI mit dem Encoder der ECoG-Variante ersetzt werden. Der Decoder der Übersetzungs-KI samt seines umfassenden Sprachmodells bliebe erhalten. Auf diese Art könnte die Hirnsatz-KI die ECoG-Signale möglicherweise viel umfassender in Text umwandeln.
Stumme Menschen könnten ebenfalls von der Hirnsatz-KI profitieren, schreiben die Forscher: Bei einem Training mit Gehirndaten ohne zusätzliche Audioaufnahmen würde die Fehlerrate voraussichtlich etwa um das Vierfache steigen. Das sei immer noch im nutzbaren Bereich und um ein Vielfaches besser als vergleichbare Ansätze, die versuchen, Wortlaute ECoG-Daten zuzuordnen, heißt es im Paper.
Quelle: Nature