Inhalt
summary Zusammenfassung

Ein Forscherteam hat mit Evo-2 das bisher umfangreichste KI-Modell für biologische Anwendungen entwickelt. Das System kann komplette Chromosomen schreiben und komplexe genetische Variationen interpretieren.

Anzeige

Evo 2 ist ein biologisches Foundation-Modell, das auf einem hochkuratierten Genomatlas von 9,3 Billionen DNA-Basenpaaren aus Bakterien, Archaeen und Eukaryoten trainiert wurde - und damit auf der DNA von mehr als 100.000 Arten. Laut den Forschern des Arc Institute, der Stanford University, der UC Berkeley, der UC San Francisco und Nvidia ermöglicht es dadurch erstmals generalistisches Vorhersagen und Designen biologischer Sequenzen von der molekularen bis zur Genom-Ebene über alle Domänen des Lebens hinweg.

Evo 2 wurde in zwei Versionen mit 7 und 40 Milliarden Parametern trainiert, mit einem bisher unerreichten Sequenz-Kontext von 1 Million Basenpaaren. Allein aus der DNA-Sequenz lernt es laut dem Team, die funktionellen Auswirkungen genetischer Varianten präzise vorherzusagen - ohne aufgabenspezifisches Finetuning.

In seinen Analysen konnten die Forscher zeigen, dass Evo 2 eigenständig eine Vielzahl biologischer Merkmale lernt und komplette Mitochondrien-Genome, Prokaryoten-Genome oder eukaryotische Chromosomen erzeugen kann, die in Länge und Komplexität den natürlich vorkommenden Pendants entsprechen. Die Forscher testeten Evo-2 unter anderem bei der Analyse von Mutationen im Brustkrebsgen BRCA1. Dabei erreichte das System nach eigenen Angaben fast die Leistung der besten bisherigen KI-Modelle bei der Bewertung krankheitsverursachender Veränderungen.

Anzeige
Anzeige

Evo 2 zeigt Skalierung durch Inference-Time-Computing

Durch Inference-Time-Search, bei der Evo 2 viele mögliche Sequenzen generiert und diese dann anhand einer Bewertungsfunktion filtert lässt sich das Modell laut dem Team außerdem so steuern, dass es komplexe epigenomische Strukturen wie die Chromatinzugänglichkeit kontrolliert designen kann. Damit zeigen die Forscher erstmals Skalierungsergebnisse für Inference-Time-Computing in der Biologie.

Die Chromatinzugänglichkeit bezieht sich auf die räumliche Struktur der DNA im Zellkern. In Bereichen mit "offenem" Chromatin ist die DNA leicht zugänglich für zelluläre Proteine wie Transkriptionsfaktoren und kann abgelesen werden. In Bereichen mit "geschlossenem" Chromatin ist die DNA dicht gepackt und für Proteine unzugänglich, so dass die Gene in diesen Bereichen stillgelegt sind. Die Chromatinzugänglichkeit ist ein wichtiger epigenetischer Regulationsmechanismus.

Durch die Kombination von generativer Modellierung und Inference-Time-Search kann Evo 2 also DNA-Sequenzen entwerfen, die eine bestimmte epigenetische Regulationslandschaft aufweisen. Das heißt, Evo 2 könnte eine DNA-Sequenz generieren, bei der genau festgelegt ist, welche Bereiche offen und zugänglich und welche Bereiche geschlossen und inaktiv sein sollen.

Evo 2 als Open-Source-Modell frei verfügbar

Um die Erforschung und das Design biologischer Komplexität zu beschleunigen, stellen die Wissenschaftler Evo 2 vollständig frei zur Verfügung. Das umfasst die Modellparameter, den Trainings- und Inference-Code sowie den OpenGenome2-Datensatz. Damit ist Evo 2 eines der größten vollständig offenen Modell in diesem Bereich überhaupt und setzt wie der Vorgänger Evo 1 auf eine hybride Architektur der StripedHyena-Reihe.

Gegenüber dem Vorgänger stellt Evo 2 jedoch eine deutliche Weiterentwicklung dar. Evo 2 wurde nicht nur auf einem 30-fach größeren Datensatz trainiert, sondern deckt mit Eukaryoten eine viel breitere Vielfalt des Lebens ab. Auch der Sequenzkontext wurde von zuvor 8.000 auf 1 Million Basenpaare erweitert, unter anderem ermöglicht durch die neue "StripedHyena 2"-Architektur. Während Evo 1 noch auf Prokaryoten beschränkt war, ermöglicht Evo 2 genomweites Vorhersagen und Generieren über alle Domänen des Lebens hinweg. Zudem erreicht es in vielen Aufgaben eine höhere Genauigkeit.

Empfehlung

Experten sehen noch Verbesserungspotenzial

Der Computerbiologe Anshul Kundaje von der Stanford University zeigte sich von der technischen Struktur des Modells beeindruckt. Allerdings sei noch unklar, ob das System auch die entfernten nicht-kodierenden Sequenzen, die die Genaktivität regulieren, wirklich verstanden habe.

Brian Hie vom Stanford and Arc Institute räumt ein, dass die von Evo-2 generierten Genome zwar realistischer seien als die seines Vorgängers, aber noch Verbesserungspotenzial hätten. Er bezweifelt, dass die Genome in ihrer jetzigen Form in Zellen funktionieren werden. Aus ethischen Gründen und zur Risikominimierung schloss das Team zudem Krankheitserreger, die Menschen und andere komplexe Organismen infizieren, aus dem Basisdatensatz von Evo 2 aus. Sie stellten auch sicher, dass das Modell auf Anfragen zu diesen Pathogenen keine produktiven Antworten liefert.

Die Entwickler planen, das System in Laborexperimenten zu validieren. Langfristig wollen sie ganze Zellen mit KI modellieren und die Bio-Design-Revolution über das reine Proteindesign hinaus vorantreiben.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher des Arc Institute, der Stanford University und Nvidia haben mit Evo-2 das bisher umfangreichste KI-Modell für biologische Anwendungen entwickelt, das auf einem genomischen Atlas mit 9,3 Billionen DNA-Basenpaaren trainiert wurde.
  • Evo-2 kann eigenständig eine Vielzahl biologischer Merkmale lernen, komplette Genome erzeugen und durch Inference-Time-Search komplexe epigenomische Strukturen wie die Chromatinzugänglichkeit kontrolliert designen.
  • Die Entwickler stellen Evo-2 als eines der größten vollständig offenen KI-Sprachmodelle frei zur Verfügung, sehen aber noch Verbesserungspotenzial und planen Laborexperimente zur Validierung sowie langfristig die Modellierung ganzer Zellen mit KI.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!