Inhalt
summary Zusammenfassung

OpenProteinSet ist ein gigantischer Datensatz, der die Open-Source-Forschung in der Bioinformatik antreiben soll.

Anzeige

Das Verständnis von Proteinsequenzen und -strukturen ist entscheidend für die Entwicklung neuer Enzyme und lebensrettender Medikamente. In den letzten Jahren hat insbesondere das KI-System AlphaFold 2 von Deepmind die Strukturbiologie revolutioniert, indem es Proteinstrukturen mit bisher unerreichter Genauigkeit vorhersagte. Laut einer neuen Studie von Forschern der Harvard University, der Harvard Medical School, der Columbia University, der New York University und des Flatiron Institute wird der Fortschritt jedoch durch den Mangel an offenen Trainingsdaten gebremst.

Jetzt soll eine Open-Source-Datenbank namens OpenProteinSet dieses Problem beheben, indem sie Protein-Alignment-Daten in großem Umfang zur Verfügung stellt.

OpenProteinSet verfügt über 16 Millionen Multiple-Sequenzalignments

Die Funktion eines Proteins ist in seiner Aminosäuresequenz kodiert. Im Laufe der Evolution häufen sich kleine Veränderungen in diesen Sequenzen an, während die Gesamtstruktur und -funktion gleich bleiben. Multiple Sequenz-Alignments (MSAs) sind Sätze von evolutionär verwandten Proteinsequenzen, die durch Einfügen von Lücken so ausgerichtet sind, dass die entsprechenden Aminosäuren in denselben Spalten enden. Die Analyse von Mustern in diesen MSAs liefert wertvolle Einblicke in die Struktur und Funktion eines Proteins.

Anzeige
Anzeige

MSAs waren schon immer ein wichtiges Werkzeug in der Proteinforschung. Mit AlphaFold2, das auf der Grundlage großer Mengen von MSA-Daten Proteinstrukturen mit nahezu experimenteller Genauigkeit vorhersagt, hat ihre Bedeutung jedoch im Jahr 2021 enorm zugenommen. Obwohl AlphaFold 2 Open Source ist, bleiben seine Trainingsdaten privat.

OpenProteinSet bietet nun 16 Millionen MSAs und zugehörige Daten, alle Open Source. Es enthält MSAs für alle 140.000 Proteine der Protein Data Bank (PDB), der Referenzdatenbank für experimentell bestimmte Proteinstrukturen. Hinzu kommen Sequenzen aus der UniProt-Wissensbasis, die nach Ähnlichkeit gruppiert sind.

Für PDB-Proteine liefert OpenProteinSet Roh-MSAs aus mehreren Sequenzdatenbanken und enthält auch strukturell ähnliche Proteine, die durch Suchen in der PDB identifiziert wurden. Vorhergesagte Strukturen aus AlphaFold2 sind für 270.000 verschiedene UniProt Cluster enthalten.

Forschende trainieren AlphaFold 2-Alternative mit Open-Source-Datensatz

Das Team nutzte OpenProteinSet auch zum Training von OpenFold, einer offenen Nachbildung von AlphaFold 2. Die so trainierte Variante erreichte die Leistung von AlphaFold 2, ein Hinweis, dass die Qualität der Daten auf einem ähnlichen Niveau liegt.

"Mit OpenProteinSet haben wir die Quantität und Qualität der vorgefertigten MSAs für molekulares maschinelles Lernen erheblich gesteigert", so das Team. "Der Datensatz hat unmittelbare Anwendungen für verschiedene Aufgaben in der Strukturbiologie".

Empfehlung

OpenProteinSet wird auf AWS gehostet und ist dort verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenProteinSet bietet 16 Millionen Proteinsequenz-Alignments (MSAs) und zugehörige Daten.
  • Es deckt alle Proteine der Protein Data Bank und verschiedene UniProt Cluster ab und ermöglicht ein umfassendes KI-Modelltraining.
  • Die Forscher nutzten OpenProteinSet für das Training von OpenFold und erreichten damit die Leistung von AlphaFold 2.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!