Ein Forscherteam hat mit Evo-2 das bisher umfangreichste KI-Modell für biologische Anwendungen entwickelt. Das System kann komplette Chromosomen schreiben und komplexe genetische Variationen interpretieren.
Evo 2 ist ein biologisches Foundation-Modell, das auf einem hochkuratierten Genomatlas von 9,3 Billionen DNA-Basenpaaren aus Bakterien, Archaeen und Eukaryoten trainiert wurde - und damit auf der DNA von mehr als 100.000 Arten. Laut den Forschern des Arc Institute, der Stanford University, der UC Berkeley, der UC San Francisco und Nvidia ermöglicht es dadurch erstmals generalistisches Vorhersagen und Designen biologischer Sequenzen von der molekularen bis zur Genom-Ebene über alle Domänen des Lebens hinweg.
Evo 2 wurde in zwei Versionen mit 7 und 40 Milliarden Parametern trainiert, mit einem bisher unerreichten Sequenz-Kontext von 1 Million Basenpaaren. Allein aus der DNA-Sequenz lernt es laut dem Team, die funktionellen Auswirkungen genetischer Varianten präzise vorherzusagen - ohne aufgabenspezifisches Finetuning.
In seinen Analysen konnten die Forscher zeigen, dass Evo 2 eigenständig eine Vielzahl biologischer Merkmale lernt und komplette Mitochondrien-Genome, Prokaryoten-Genome oder eukaryotische Chromosomen erzeugen kann, die in Länge und Komplexität den natürlich vorkommenden Pendants entsprechen. Die Forscher testeten Evo-2 unter anderem bei der Analyse von Mutationen im Brustkrebsgen BRCA1. Dabei erreichte das System nach eigenen Angaben fast die Leistung der besten bisherigen KI-Modelle bei der Bewertung krankheitsverursachender Veränderungen.
Evo 2 zeigt Skalierung durch Inference-Time-Computing
Durch Inference-Time-Search, bei der Evo 2 viele mögliche Sequenzen generiert und diese dann anhand einer Bewertungsfunktion filtert lässt sich das Modell laut dem Team außerdem so steuern, dass es komplexe epigenomische Strukturen wie die Chromatinzugänglichkeit kontrolliert designen kann. Damit zeigen die Forscher erstmals Skalierungsergebnisse für Inference-Time-Computing in der Biologie.
Die Chromatinzugänglichkeit bezieht sich auf die räumliche Struktur der DNA im Zellkern. In Bereichen mit "offenem" Chromatin ist die DNA leicht zugänglich für zelluläre Proteine wie Transkriptionsfaktoren und kann abgelesen werden. In Bereichen mit "geschlossenem" Chromatin ist die DNA dicht gepackt und für Proteine unzugänglich, so dass die Gene in diesen Bereichen stillgelegt sind. Die Chromatinzugänglichkeit ist ein wichtiger epigenetischer Regulationsmechanismus.
Durch die Kombination von generativer Modellierung und Inference-Time-Search kann Evo 2 also DNA-Sequenzen entwerfen, die eine bestimmte epigenetische Regulationslandschaft aufweisen. Das heißt, Evo 2 könnte eine DNA-Sequenz generieren, bei der genau festgelegt ist, welche Bereiche offen und zugänglich und welche Bereiche geschlossen und inaktiv sein sollen.
Evo 2 als Open-Source-Modell frei verfügbar
Um die Erforschung und das Design biologischer Komplexität zu beschleunigen, stellen die Wissenschaftler Evo 2 vollständig frei zur Verfügung. Das umfasst die Modellparameter, den Trainings- und Inference-Code sowie den OpenGenome2-Datensatz. Damit ist Evo 2 eines der größten vollständig offenen Modell in diesem Bereich überhaupt und setzt wie der Vorgänger Evo 1 auf eine hybride Architektur der StripedHyena-Reihe.
Gegenüber dem Vorgänger stellt Evo 2 jedoch eine deutliche Weiterentwicklung dar. Evo 2 wurde nicht nur auf einem 30-fach größeren Datensatz trainiert, sondern deckt mit Eukaryoten eine viel breitere Vielfalt des Lebens ab. Auch der Sequenzkontext wurde von zuvor 8.000 auf 1 Million Basenpaare erweitert, unter anderem ermöglicht durch die neue "StripedHyena 2"-Architektur. Während Evo 1 noch auf Prokaryoten beschränkt war, ermöglicht Evo 2 genomweites Vorhersagen und Generieren über alle Domänen des Lebens hinweg. Zudem erreicht es in vielen Aufgaben eine höhere Genauigkeit.
Experten sehen noch Verbesserungspotenzial
Der Computerbiologe Anshul Kundaje von der Stanford University zeigte sich von der technischen Struktur des Modells beeindruckt. Allerdings sei noch unklar, ob das System auch die entfernten nicht-kodierenden Sequenzen, die die Genaktivität regulieren, wirklich verstanden habe.
Brian Hie vom Stanford and Arc Institute räumt ein, dass die von Evo-2 generierten Genome zwar realistischer seien als die seines Vorgängers, aber noch Verbesserungspotenzial hätten. Er bezweifelt, dass die Genome in ihrer jetzigen Form in Zellen funktionieren werden. Aus ethischen Gründen und zur Risikominimierung schloss das Team zudem Krankheitserreger, die Menschen und andere komplexe Organismen infizieren, aus dem Basisdatensatz von Evo 2 aus. Sie stellten auch sicher, dass das Modell auf Anfragen zu diesen Pathogenen keine produktiven Antworten liefert.
Die Entwickler planen, das System in Laborexperimenten zu validieren. Langfristig wollen sie ganze Zellen mit KI modellieren und die Bio-Design-Revolution über das reine Proteindesign hinaus vorantreiben.