Inhalt
summary Zusammenfassung

Ein Team von TogtherAI und dem Arc Institute stellt Evo vor, ein KI-Modell für die biologische Forschung, das DNA, RNA und Proteine interpretieren kann und generatives Design auf molekularer und genomischer Ebene ermöglicht.

Anzeige

Das von einem Expertenteam bestehend aus Eric Nguyen, Michael Poli, Matthew Durrant, Patrick Hsu und Brian Hie entwickelte Modell stellt einen Meilenstein in der Verarbeitung und Analyse biologischer Daten dar. Evo nutzt eine modifizierte Version der StripedHyena-Architektur und zeichnet sich durch seine Fähigkeit aus, die grundlegenden biologischen "Sprachen" - DNA, RNA und Proteine - zu interpretieren, Vorhersagen zu treffen und generatives Design von der molekularen bis zur genomischen Ebene zu ermöglichen.

Die neue Architektur ermöglicht es Evo, lange Kontexte zu modellieren und mehr als 650.000 Token zu verarbeiten. Dies ist besonders wichtig für biologische KI-Modelle, da DNA-Sequenzen extrem lang sein können (bis zu Milliarden von Nukleotiden) und eine hohe Empfindlichkeit erforderlich ist, um die Auswirkungen der Evolution zu verstehen, die auf Veränderungen einzelner Nukleotide beruht. Evo ist in der Lage, auf Nukleotidebene zu arbeiten und die kleinsten Bausteine der DNA und RNA zu erkennen und zu interpretieren. Evo kann Sequenzen bis zu einer Länge von 131 Kilobasen (131.000 Basen) verarbeiten.

"Evo versucht, den Weg für Foundation-Modelling in der Biologie zu ebnen", sagt Micheal Poli, Mitautor von Evo und StripedHyena. Wie bei Sprachmodellen verwendet Evo ein Next-Token-Predition-Ziel, also die Vorhersage des nächsten Tokens während des Trainings - in diesem Fall auf Nukleotidebene. "Das Problem, warum das bisher nicht versucht wurde, ist, dass die Sequenzen extrem lang sind und die hohe Auflösung eine große Herausforderung für Transformatoren darstellt", sagt Poli. Er spielt damit auf Tokenizer an, die beispielsweise in Sprachmodellen Text in Token umwandeln und oft für Probleme in deren Fähigkeiten verantwortlich sind, da sie nicht auf Buchstaben- oder Zahlenebene arbeiten, sondern stattdessen Teile von Wörtern oder mehrere Zahlen in ein Token umwandeln.

Anzeige
Anzeige

Das konnte das Team auch in eigenen Experimenten reproduzieren, als es Transfomer-Modlele und andere Architekturen wie Mamba trainierte. "Das Erstaunliche ist, dass diese Deep-Signal-Processing-Architekturen wie StripedHyena besser zu skalieren scheinen", so Poli. "Es ist nicht nur so, dass sie diese längeren Sequenzen verarbeiten können und dann ungefähr so gut sind wie Transformer. Es ist so, als ob sie tatsächlich pro Flop besser skalieren. Ich denke, es sind einfach bessere Architekturen als Transformer."

Evo ist ein Foundation-Modell für Biologie

Für das Training von Evo wurde eine umfangreiche Datenbank mit 2,7 Millionen Genomen von Prokaryonten verwendet - ein Bruchteil der öffentlich verfügbaren Genomdaten. Das Modell wurde in zwei Schritten trainiert. In der ersten Phase wurde es mit einer Kontextlänge von 8.000 Basenpaaren trainiert, in der zweiten Phase wurde die Kontextlänge auf 131.000 Basenpaare erhöht. Dadurch kann das Modell Muster erkennen und Vorhersagen über eine wesentlich längere DNA-Sequenz treffen als mit bisherigen Methoden. Der entsprechende Trainingsdatensatz, OpenGenome, soll in Kürze öffentlich zugänglich gemacht werden.

Erste Experimente mit Evo zeigen das Potenzial für verschiedene Anwendungen, einschließlich der Vorhersage lebenswichtiger Gene eines Organismus auf der Grundlage geringfügiger DNA-Mutationen. Diese Fähigkeit könnte herkömmliche Laborexperimente ersetzen, die nach Angaben des Teams oft Monate dauern können.

Bild: Nguyen, Poli, Durrant et al.

In Tests konnte es mit führenden protein-spezifischen Sprachmodellen mithalten, um die Auswirkungen von Mutationen auf die Funktion von E. coli-Proteinen vorherzusagen. Evo kann auch die funktionellen Eigenschaften von nicht-kodierenden RNAs (ncRNAs) vorhersagen und die Genexpression von regulatorischer DNA ableiten.

Darüber hinaus ist Evo in der Lage, komplexe molekulare Systeme wie CRISPR-Cas-Komplexe und transponierbare Elemente zu generieren. Evo kann auch DNA-Sequenzen mit einer Länge von mehr als 650 Kilobasen erzeugen - eine Größenordnung mehr als bisherige Methoden. Während sich bisherige generative Modelle zudem meist auf eine einzelne Modalität konzentrieren, ist Evo in der Lage, große funktionelle Komplexe aus Proteinen und ncRNAs zu entwerfen.

Empfehlung

Evo ist in der Lage, generative Designs vom molekularen bis zum genomischen Maßstab zu entwickeln. | Video: Together AI

Evo wirft ethische Fragen auf, die beantwortet werden müssen

Das Evo-Team betrachtet ihr Modell als einen potenziellen Meilenstein in der Modellierung biologischer Sequenzen und sieht Anwendungsmöglichkeiten in verschiedenen Feldern wie Chemie, Materialwissenschaft, Arzneimittelforschung, Landwirtschaft und Nachhaltigkeit. Die praktische Anwendung der generierten Sequenzen erfordert jedoch weitere Validierung, so das Team.

Evo ist das erste System seiner Art, das DNA-Sequenzen auf der Ebene des gesamten Genoms mit einer Auflösung von einem einzelnen Nukleotid vorhersagen und erzeugen kann. "Die zukünftigen Möglichkeiten, die sich aus groß angelegten DNA-Modellen wie Evo ergeben, erfordern auch zusätzliche Arbeiten, um sicherzustellen, dass diese Möglichkeiten sicher und zum Nutzen der Menschheit eingesetzt werden", heißt es im Blog-Beitrag.

Es bestehen Bedenken hinsichtlich eines möglichen Missbrauchs, sozialer und gesundheitlicher Ungerechtigkeit und Umweltzerstörung. Das Team schlägt daher vor, umfassende Richtlinien für ethische Praktiken zu entwickeln, Transparenz zu fördern und internationale Kooperationen und Partnerschaften zu unterstützen, die zu einer verantwortungsvollen Nutzung und Entwicklung von Instrumenten wie Evo beitragen könnten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Investitionen in Bildung und Kapazitätsaufbau sowie die Zusammenarbeit mit Organisationen wie der Global Alliance for Genomics and Health (GA4GH) könnten ebenfalls zu einer Zukunft beitragen, in der Fortschritte in der Gentechnik mit ethischen Grundsätzen und gesellschaftlichen Werten im Einklang stehen.

Das Team stellt Code und Modell über GitHub zur Verfügung.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher entwickeln Evo, ein KI-Modell für die biologische Forschung, das DNA, RNA und Proteine interpretieren kann und generatives Design auf molekularer und Genomskala ermöglicht.
  • Evo kann lange genetische Sequenzen präzise analysieren und wurde mit einer umfangreichen Datenbank von 2,7 Millionen vollständigen Genomen von Prokaryoten trainiert.
  • Potenzielle Anwendungen von Evo umfassen die Vorhersage lebenswichtiger Gene, die Funktionen von Proteinen und regulatorischen DNA-Sequenzen sowie das Entwerfen neuer CRISPR-Systeme für die Genbearbeitung.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!