OpenProteinSet: Gigantischer Open-Source-Datensatz soll Strukturbiologie beschleunigen

Midjourney prompted by THE DECODER

OpenProteinSet ist ein gigantischer Datensatz, der die Open-Source-Forschung in der Bioinformatik antreiben soll.

Das Verständnis von Proteinsequenzen und -strukturen ist entscheidend für die Entwicklung neuer Enzyme und lebensrettender Medikamente. In den letzten Jahren hat insbesondere das KI-System AlphaFold 2 von Deepmind die Strukturbiologie revolutioniert, indem es Proteinstrukturen mit bisher unerreichter Genauigkeit vorhersagte. Laut einer neuen Studie von Forschern der Harvard University, der Harvard Medical School, der Columbia University, der New York University und des Flatiron Institute wird der Fortschritt jedoch durch den Mangel an offenen Trainingsdaten gebremst.

Jetzt soll eine Open-Source-Datenbank namens OpenProteinSet dieses Problem beheben, indem sie Protein-Alignment-Daten in großem Umfang zur Verfügung stellt.

OpenProteinSet verfügt über 16 Millionen Multiple-Sequenzalignments

Die Funktion eines Proteins ist in seiner Aminosäuresequenz kodiert. Im Laufe der Evolution häufen sich kleine Veränderungen in diesen Sequenzen an, während die Gesamtstruktur und -funktion gleich bleiben. Multiple Sequenz-Alignments (MSAs) sind Sätze von evolutionär verwandten Proteinsequenzen, die durch Einfügen von Lücken so ausgerichtet sind, dass die entsprechenden Aminosäuren in denselben Spalten enden. Die Analyse von Mustern in diesen MSAs liefert wertvolle Einblicke in die Struktur und Funktion eines Proteins.

MSAs waren schon immer ein wichtiges Werkzeug in der Proteinforschung. Mit AlphaFold2, das auf der Grundlage großer Mengen von MSA-Daten Proteinstrukturen mit nahezu experimenteller Genauigkeit vorhersagt, hat ihre Bedeutung jedoch im Jahr 2021 enorm zugenommen. Obwohl AlphaFold 2 Open Source ist, bleiben seine Trainingsdaten privat.

OpenProteinSet bietet nun 16 Millionen MSAs und zugehörige Daten, alle Open Source. Es enthält MSAs für alle 140.000 Proteine der Protein Data Bank (PDB), der Referenzdatenbank für experimentell bestimmte Proteinstrukturen. Hinzu kommen Sequenzen aus der UniProt-Wissensbasis, die nach Ähnlichkeit gruppiert sind.

Für PDB-Proteine liefert OpenProteinSet Roh-MSAs aus mehreren Sequenzdatenbanken und enthält auch strukturell ähnliche Proteine, die durch Suchen in der PDB identifiziert wurden. Vorhergesagte Strukturen aus AlphaFold2 sind für 270.000 verschiedene UniProt Cluster enthalten.

Forschende trainieren AlphaFold 2-Alternative mit Open-Source-Datensatz

Das Team nutzte OpenProteinSet auch zum Training von OpenFold, einer offenen Nachbildung von AlphaFold 2. Die so trainierte Variante erreichte die Leistung von AlphaFold 2, ein Hinweis, dass die Qualität der Daten auf einem ähnlichen Niveau liegt.

"Mit OpenProteinSet haben wir die Quantität und Qualität der vorgefertigten MSAs für molekulares maschinelles Lernen erheblich gesteigert", so das Team. "Der Datensatz hat unmittelbare Anwendungen für verschiedene Aufgaben in der Strukturbiologie".

Empfehlung

KI-Forschung

Weltmodelle statt Prompts: KI-Modelle sollen künftig aus Erfahrung lernen statt nur aus Text

OpenProteinSet wird auf AWS gehostet und ist dort verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenProteinSet: Gigantischer Open-Source-Datensatz soll Strukturbiologie beschleunigen

OpenProteinSet verfügt über 16 Millionen Multiple-Sequenzalignments

Forschende trainieren AlphaFold 2-Alternative mit Open-Source-Datensatz

Weltmodelle statt Prompts: KI-Modelle sollen künftig aus Erfahrung lernen statt nur aus Text

OpenAI: KI ersetzt nicht Ärzte, sondern das Nicht-zum-Arzt-Gehen

Deepmind-Tochter bereitet erste klinische Tests mit KI-Medikamenten vor

ChatGPT löst medizinische Rätsel, an denen Ärzteteams jahrelang scheiterten

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

OpenProteinSet: Gigantischer Open-Source-Datensatz soll Strukturbiologie beschleunigen

OpenProteinSet verfügt über 16 Millionen Multiple-Sequenzalignments

Forschende trainieren AlphaFold 2-Alternative mit Open-Source-Datensatz

Artikel teilen

Bankverbindung