Claude knackt Bioinformatik-Probleme, die fünf Fachleute nicht lösen konnten
Mit BioMysteryBench will Anthropic zeigen, dass Claude reale Bioinformatik-Probleme auf Expertenniveau lösen kann. Die Ergebnisse sind interessant, aber nicht ohne Einschränkungen.
Wie gut KI-Modelle tatsächlich in der biologischen Forschung arbeiten können, ist schwer zu messen. Bisherige Benchmarks haben laut Anthropic jeweils blinde Flecken: Wissenstests wie MMLU-Pro oder GPQA prüfen Faktenwissen, aber keine praktische Forschungsarbeit. Benchmarks wie BixBench, die reale Datensätze verwenden, bewerten Modelle anhand der Schlussfolgerungen einzelner Wissenschaftler, die selbst subjektiv und durch methodische Entscheidungen geprägt sind. Und simulierte Laborumgebungen wie SciGym haben zwar klare Antworten, bilden aber nicht die Unordnung realer biologischer Daten ab.
Anthropic hat deshalb BioMysteryBench entwickelt: 99 Fragen aus verschiedenen Bioinformatik-Bereichen, geschrieben von Fachleuten, die auf echten, verrauschten Datensätzen basieren. Der zentrale Designtrick: Die Antworten leiten sich nicht aus wissenschaftlichen Interpretationen ab, sondern aus kontrollierbaren, objektiv überprüfbaren Eigenschaften der Daten oder unabhängig validierten Metadaten. Jeder Fragenautor musste ein Validierungs-Notebook einreichen, das belegt, dass das Signal tatsächlich in den Daten existiert. So lassen sich auch Fragen stellen, die Menschen möglicherweise nicht lösen können.
Typische Aufgaben: "Aus welchem Organ stammt dieser Einzelzell-RNA-Datensatz?" oder "Welches Gen wurde in den experimentellen Proben ausgeschaltet?" Claude erhält einen Container mit Bioinformatik-Werkzeugen, Zugang zu Datenbanken wie NCBI und Ensembl und darf frei entscheiden, welche Analysemethoden es einsetzt. Bewertet wird nur das Ergebnis, nicht der Weg dorthin.
Gute Ergebnisse, aber fragile Erfolge bei schwierigen Aufgaben
Anthropic teilte die Aufgaben in zwei Gruppen: 76 galten als "menschlich lösbar", weil mindestens einer von bis zu fünf Fachleuten die richtige Antwort fand. 23 weitere Aufgaben konnte keiner der Experten lösen. Vier ursprünglich vorgesehene Fragen mussten entfernt werden, weil sie fehlerhaft formuliert waren. Bei den verbleibenden 23 räumt Anthropic selbst ein, dass unklar ist, ob sie prinzipiell unlösbar sind oder nur extrem schwierig. Ob ein größeres oder anders zusammengesetztes Expertenpanel diese Aufgaben gelöst hätte, bleibt ebenfalls offen.
Bei den lösbaren Problemen erreicht Claude laut Anthropic inzwischen das Niveau menschlicher Fachleute.

Bei den schwierigen Aufgaben, die keiner der ausgewählten Experten lösen konnte, kommt Claude Mythos Preview auf eine Lösungsrate von 30 Prozent.

Allerdings zeigt eine Konsistenzanalyse, die Anthropic von Claude Mythos Preview selbst durchführen ließ, ein differenzierteres Bild: Jede Aufgabe wurde fünfmal versucht. Bei den lösbaren Aufgaben beantwortet Claude sie fast immer entweder alle fünf Versuche richtig oder gar keinen. Bei den schwierigen Aufgaben dagegen gelingen die Erfolge häufig nur in ein bis zwei von fünf Versuchen. Das Modell stolpert eher über einen glücklichen Lösungspfad, als dass es eine reproduzierbare Strategie hat.
Anthropic identifiziert zwei Strategien, die Claude von den menschlichen Testern unterscheiden: Das Modell greift auf eine breite Wissensbasis zurück und kombiniert Informationen direkt mit der laufenden Analyse. Außerdem schichtet Claude bei Unsicherheit mehrere Methoden übereinander und wählt die Antwort, auf die verschiedene Ansätze konvergieren.
Unabhängige Bestätigung für die Leistung der KI-Modelle liefert der zeitgleich entwickelte CompBioBench von Genentech und Roche, ein ähnlich konzipierter Benchmark mit vergleichbaren Ergebnissen. BioMysteryBench ist auf Hugging Face verfügbar.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.