BioCoder ist ein Benchmark, der die Entwicklung von KI-Modellen für die Bioinformatik unterstützen soll.
Forschende der Yale University und Google Deepmind stellen BioCoder vor, einen Benchmark zum Testen von KI-Modellen bei der Generierung von bioinformatikspezifischem Code. Mit den wachsenden Fähigkeiten von ChatGPT oder spezialisierten Code-Modellen werden die Modelle für immer komplexere Aufgaben eingesetzt, so das Team.
Darüber hinaus stelle in der Bioinformatik die Generierung funktionsfähiger Programme aufgrund der Menge an Domänenwissen, der Notwendigkeit komplexer Datenoperationen und der komplexen funktionalen Abhängigkeiten zwischen Operationen eine große Herausforderung dar.
BioCoder soll helfen, diese Fähigkeiten zu testen - und damit die Entwicklung solcher Modelle zu unterstützen. Der Benchmark umfasst 2.269 Coding-Probleme und integriert Herausforderungen aus der realen Welt wie Abhängigkeiten, Importe und globale Variablen, um die pragmatischen Coding-Fähigkeiten von KI-Modellen besser zu untersuchen.
Als Grundlage dienten 1026 Funktionen und 1243 Methoden in Python und Java, die alle aus Bioinformatik-GitHub-Repositorien stammen und Teil von Peer-Reviewed-Publikationen sind. Das Team erstellte daraus Code-Probleme mit Prompts, Kontext und Beispiellösungen.
ChatGPT Abstand vor anderen Modellen "überraschend"
Mit BioCoder wurden InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ und ChatGPT getestet. OpenAIs GPT-3.5 Turbo schlug die anderen Code-Assistenten so deutlich, dass das Team den Abstand als "überraschend" bezeichnet. "Dieser krasse Gegensatz unterstreicht die entscheidende Rolle, die sowohl die Größe des Datensatzes als auch die Größe der Parameter der Basismodelle bei der Generierung von Code für eine geschlossene Domäne spielen", so das Team.
In einem Experiment konnte das Team jedoch die Leistung von StarCoder durch Feintuning verbessern. Erfolg in spezialisierten Bereichen wie der Bioinformatik sei also nicht nur mit großen Sprachmodellen wie ChatGPT möglich, sondern auch mit kleineren, spezialisierten Modellen. In Zukunft will das Team weitere offene Modelle wie Metas LLamA2 testen und erwartet Verbesserungen durch Modelle mit größeren Kontextlängen.
BioCoder blieb jedoch auch für ChatGPT eine Herausforderung, das Modell erreichte nur eine Genauigkeit von knapp unter 50 Prozent. GPT-4 wurde noch nicht getestet.
Mehr Informationen, die Benchmarks, Code und Daten gibt es auf GitHub.