Inhalt
summary Zusammenfassung

Ein neues KI-Modell namens ESM3 kann durch Training auf von der Evolution erzeugten Daten funktionale Proteine generieren, die in der Natur Hunderte Millionen Jahre bräuchten, um sich zu entwickeln.

Wissenschaftler des Unternehmens EvolutionaryScale haben ein großes KI-Modell namens ESM3 entwickelt, das in der Lage ist, die Evolution von Proteinen zu simulieren und dabei neue funktionelle Proteine zu erzeugen. In einer Demonstration dieser Fähigkeit erzeugte das Modell ein grün fluoreszierendes Protein (GFP) namens esmGFP, das nur 58 % Sequenzähnlichkeit mit dem nächstverwandten bekannten fluoreszierenden Protein aufweist.

Das Modell wurde auf 2,78 Milliarden natürlichen Proteinsequenzen, 236 Millionen Proteinstrukturen und 539 Millionen Proteinen mit Funktionsannotationen trainiert. Insgesamt hat ESM3 während des Trainings 771 Milliarden Token verarbeitet.

Video: EvolutionaryScale

Anzeige
Anzeige

ESM3 verarbeitet dreidimensionale Strukturen von Proteinen besser als ältere Modelle

Im Gegensatz zu herkömmlichen Sprachmodellen, die nur auf Textdaten trainiert werden, lernt ESM3 aus diskreten Token, die die Sequenz, die dreidimensionale Struktur und die biologische Funktion von Proteinen repräsentieren. "Proteine können als in einem organisierten Raum existierend betrachtet werden, in dem jedes Protein von jedem anderen Protein, das sich durch ein einziges Mutationsereignis unterscheidet, benachbart ist", erklären die Forscher.

Das KI-Modell ESM3 lernte, diesen Raum zu verstehen, indem es Vorhersagen über die nächsten Token in Proteinsequenzen traf - ähnlich wie Sprachmodelle Wörter in Sätzen vorhersagen. Im Gegensatz zu reinen Sprachmodellen hat ESM3 jedoch eine neuartige Architektur, die "geometrische Aufmerksamkeit" nutzt, um die dreidimensionale Struktur von Proteinen effizient zu verarbeiten.

Bild: EvolutionaryScale

Das Ergebnis ist ein Modell, das Proteine in einem organisierten Raum betrachtet, in dem jedes Protein von allen anderen Proteinen umgeben ist, die eine Mutation entfernt sind. "ESM3 arbeitet nicht innerhalb der physikalischen Grenzen der Evolution, sondern konstruiert implizit ein Modell der vielen möglichen Evolutionspfade", erklären die Autoren. Die Evolutionspfade verbinden alle Proteine, ohne dass das übergeordnete System seine Funktion verliert.

ESM3 überspringt 500 Millionen Jahre Evolution

Durch geschickte Prompts kann ESM3 völlig neue funktionelle Proteine erzeugen. Die Wissenschaftler demonstrieren dies am Beispiel des grün fluoreszierenden Proteins (GFP). Sie gaben ESM3 die Sequenz und Struktur einiger Schlüsselreste vor, die für die Fluoreszenz entscheidend sind. Auf dieser Grundlage generierte das Modell schrittweise die restliche Proteinsequenz und -struktur.

Bild: EvolutionaryScale

Eines der erzeugten Proteine, "esmGFP", weist eine hohe Leuchtkraft auf, obwohl es sich in 58 % seiner Aminosäuresequenz vom nächsten bekannten fluoreszierenden Protein unterscheidet. Eine so große Veränderung hätte in der Natur mehr als 500 Millionen Jahre gedauert, schätzen die Autoren.

Empfehlung

EvolutionaryScale wurde von ehemaligen Meta-Forschern gegründet

Die Studie zeigt erneut das Potenzial von Transformern, die biologische Komplexität von Proteinen zu erfassen und neue Funktionen zu generieren. Das haben die Firmengründer bereits zuvor bewiesen: Sie sind ehemalige Mitglieder der Meta-FAIR Proteingruppe und waren unter anderem an ESMFold beteiligt. Meta hat die Abteilung im August 2023 aufgelöst, während die Konkurrenz von Google mit Deepminds AlphaFold 3 weiter auf diesem Gebiet arbeitet.

Laut dem Team von EvolutionaryScale eröffnet ESM3 nun einen programmgesteuerten Ansatz für das Design von Proteinen, der die Lücke zwischen menschlichen Vorgaben und der Komplexität der Biologie überbrückt. In Zukunft könnte diese Technik zahlreiche Anwendungen in Biotechnologie und Medizin ermöglichen.

Die Forscher betonen aber auch die Notwendigkeit eines verantwortungsvollen Umgangs mit solch leistungsfähigen KI-Modellen. Sie veröffentlichen daher auch eine für Forscher offene Version ESM3-open. Nach Angaben des Teams wurde das Modell von Experten auf seine Sicherheit geprüft. Nach Ansicht der Experten überwiegen die positiven Auswirkungen der Veröffentlichung deutlich die Risiken.

Die vollständigen ESM3-Modelle sollen über eine API mit freiem Zugang für die akademische Forschung zur Verfügung stehen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von EvolutionaryScale entwickeln ESM3, ein KI-Modell, das durch Training auf evolutionsbasierten Daten funktionale Proteine generieren kann, wofür die Natur Hunderte Millionen Jahre bräuchte.
  • ESM3 lernt aus Token, die Sequenz, 3D-Struktur und Funktion von Proteinen repräsentieren und nutzt eine modifizierte Transformer-Architektur, um die dreidimensionale Struktur effizient zu verarbeiten. Durch Prompts kann ESM3 völlig neue funktionale Proteine wie das grün fluoreszierende Protein esmGFP erzeugen.
  • ESM3 eröffne einen programmgesteuerten Ansatz für das Proteindesign mit möglichen Anwendungen in Biotechnologie und Medizin, erfordere aber auch einen verantwortungsvollen Umgang. Eine offene Version ist ebenfalls verfügbar.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!