Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Nvidia, Evozyne, InstaDeep und Forschende der TU München zeigen auf der JP Morgan Healthcare Konferenz neue Fortschritte im Einsatz von KI in der Biologie.

Fortschritte in generativen KI-Modellen für Sprache und Bilder verändern den Markt für die maschinelle Verarbeitung natürlicher Sprache (NLP), Kunst und Design. Doch die zugrundeliegenden Technologien wie Transformer, Diffusion-Modelle oder Variational Autoencoders (VAE) und Methoden, wie unüberwachtes Lernen mit gigantischen Datenmengen, beweisen sich auch außerhalb dieser Domänen.

Ein erfolgversprechendes Anwendungsgebiet ist die Bioinformatik, in der Modelle wie Deepminds AlphaFold 2 oder Metas ESMFold die Struktur von Proteinen vorhersagen oder der Siegeszug der Diffusions-Modelle wie Stable Diffusion eine neue Ära im Protein-Design einläuten soll.

Allein 2022 wurden knapp 1.000 wissenschaftliche Arbeiten auf Arxiv zum Einsatz von KI in der Biologie veröffentlicht. Bis 2025 könnten mehr als 30 Prozent der neuen Medikamente und Materialien systematisch mit Hilfe generativer KI-Techniken entdeckt werden, heißt es etwa im Gartner-Report "Innovation Insight for Generative AI".

Anzeige
Anzeige

Nvidia kooperiert mit Start-ups und Forschenden für Fortschritte in der Bioinformatik

Auf der diesjährigen JP Morgan Healthcare Konferenz stellt Nvidia nun die Ergebnisse zweier Kooperation mit Start-ups und Forschenden vor: das Genomik-Sprachmodell Nucleotide Transformer und das generative Protein-Modell ProT-VAE.

Der Nucleotide Transformer entstand in einer Kollaboration zwischen dem kürzlich von BionTech übernommenen InstaDeep, der Technischen Universität München und Nvidia. Das Team trainierte verschiedene Modellgrößen mit Daten von bis zu 174 Milliarden Nukleotiden verschiedener Spezies auf Nvidias Cambridge-1 Supercomputer und folgt damit dem Erfolgsrezept großer Sprachmodelle wie GPT-3: große Modelle, gigantischer Datensatz und viel Rechenleistung.

Wie erhofft, stieg die Leistung des Nucleotide Transformer mit Modellgröße und Datenmenge. Das Team testete das Modell in 19 Benchmarks und erreichte in 15 eine gleichwertige oder bessere Leistung als andere Modelle, die speziell für diese Aufgaben trainiert wurden. Der Transformer soll in Zukunft etwa helfen, DNA-Sequenzen in RNA und Proteine zu übersetzen.

"Wir glauben, dass dies die ersten Ergebnisse sind, die eindeutig die Machbarkeit der Entwicklung von Foundation Models in der Genomik zeigen, die wirklich über mehrere Aufgaben hinweg verallgemeinert werden können", so Karim Beguir, CEO von InstaDeep. "In vielerlei Hinsicht spiegeln diese Ergebnisse wider, was wir in den letzten Jahren bei der Entwicklung anpassungsfähiger Foundation Models in der Verarbeitung natürlicher Sprache gesehen haben, und es ist unglaublich spannend zu sehen, dass dies nun auf solch herausfordernde Probleme in der Arzneimittelforschung und der menschlichen Gesundheit angewendet wird."

KI-Modell ProT-VAE generiert neue Proteine

Forschende des Start-ups Evozyne gehen einen Schritt weiter: Sie nutzten Nvidias BioNeMo-Plattform, um mit dem generativen Modell ProT-VAE neue Proteine zu generieren. Modelle wie AlphaFold oder ESMFold sagen aus Protein-Sequenzen deren Struktur vorher, ProT-VAE soll dagegen aus den Sequenzen direkt Funktionen ableiten und so gezielt neue Proteine generieren, die eine bestimmte Funktion übernehmen.

Empfehlung

Die Fähigkeit, Proteine mit vorher festgelegten Funktionen zu entwickeln, ist ein zentrales Ziel der synthetischen Biologie und hat Potenzial, etwa die Medizin, die Bioverfahrenstechnik oder den Energiesektor zu revolutionieren.

Das Problem: Allein mit den natürlich vorkommenden Aminosäuren gibt es deutlich mehr mögliche Proteine als Protonen im sichtbaren Universum.

Die Lösung sieht Evozyne im "Machine Learning Guided Protein Engineering" mit ProT-VAE. Das Modell legt ein VAE-Netz zwischen einen von Nvidia vortrainierten Protein-Transformer-Encoder und -Decoder. Das VAE-Netz wird anschließend für eine bestimmte Protein-Familie trainiert, in der neue Proteine generiert werden sollen. In dem generativen Prozess kann das Modell jedoch weiter von den umfassenden Repräsentationen des ProtT5-Transformers profitieren, der während Nvidias Training Sequenzen von Aminosäuren in Millionen von Proteinen verarbeitet hat.

Bild: Evozyne | Nvidia

Um das Modell zu testen, entwickelte das Team unter anderem eine Variante des menschlichen PAH-Proteins. Mutationen am PAH-Gen können dessen Aktivität einschränken und zu Stoffwechselerkrankungen führen, die etwa die geistige Entwicklung stört und zu Epilepsie führen kann. Laut den Forschenden entwarf ProT-VAE eine Variante mit 51 Mutationen, 85 Prozent Sequenz-Übereinstimmung und einer um den Faktor 2,5 verbesserten Funktion.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Wir gehen davon aus, dass das Modell eine erweiterbare und generische Plattform für maschinelles Lernen und gezielte Evolutionskampagnen für das datengesteuerte Design neuartiger synthetischer Proteine mit "übernatürlichen" Funktionen bieten kann.

Aus dem Paper

Dieser Prozess habe bis vor kurzem Monate bis Jahre in Anspruch genommen. Mit ProT-VAE ließe sich diese Zeit auf wenige Wochen reduzieren.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia, Evozyne, InstaDeep und Forschende der TU München zeigen neue KI-Modelle für die Bioinformatik, die etwa effizientere Proteine für bestimmte Funktionen generieren können.
  • Das Genomik-Sprachmodell Nucleotide Transformer folgt großen Sprachmodellen und ist mit großen Datenmengen trainiert. Das Training macht das Modell vielseitig einsetzbar: Es erreicht in 19 Benchmarks gute Leistung und hängt spezialisierte Modelle in 15 davon ab.
  • Das generative Protein-Modell ProT-VAE synthetisiert neue Proteine nach Funktionsvorgaben. Das Modell reduziert laut dem Team die dafür notwendige Zeit von Monaten oder Jahren auf wenige Wochen.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!