BioCoder ist ein Benchmark für KI-generierten Bioinformatik-Code
BioCoder ist ein Benchmark, der die Entwicklung von KI-Modellen für die Bioinformatik unterstützen soll.
Forschende der Yale University und Google Deepmind stellen BioCoder vor, einen Benchmark zum Testen von KI-Modellen bei der Generierung von bioinformatikspezifischem Code. Mit den wachsenden Fähigkeiten von ChatGPT oder spezialisierten Code-Modellen werden die Modelle für immer komplexere Aufgaben eingesetzt, so das Team.
Darüber hinaus stelle in der Bioinformatik die Generierung funktionsfähiger Programme aufgrund der Menge an Domänenwissen, der Notwendigkeit komplexer Datenoperationen und der komplexen funktionalen Abhängigkeiten zwischen Operationen eine große Herausforderung dar.
BioCoder soll helfen, diese Fähigkeiten zu testen - und damit die Entwicklung solcher Modelle zu unterstützen. Der Benchmark umfasst 2.269 Coding-Probleme und integriert Herausforderungen aus der realen Welt wie Abhängigkeiten, Importe und globale Variablen, um die pragmatischen Coding-Fähigkeiten von KI-Modellen besser zu untersuchen.
Als Grundlage dienten 1026 Funktionen und 1243 Methoden in Python und Java, die alle aus Bioinformatik-GitHub-Repositorien stammen und Teil von Peer-Reviewed-Publikationen sind. Das Team erstellte daraus Code-Probleme mit Prompts, Kontext und Beispiellösungen.
ChatGPT Abstand vor anderen Modellen "überraschend"
Mit BioCoder wurden InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ und ChatGPT getestet. OpenAIs GPT-3.5 Turbo schlug die anderen Code-Assistenten so deutlich, dass das Team den Abstand als "überraschend" bezeichnet. "Dieser krasse Gegensatz unterstreicht die entscheidende Rolle, die sowohl die Größe des Datensatzes als auch die Größe der Parameter der Basismodelle bei der Generierung von Code für eine geschlossene Domäne spielen", so das Team.
In einem Experiment konnte das Team jedoch die Leistung von StarCoder durch Feintuning verbessern. Erfolg in spezialisierten Bereichen wie der Bioinformatik sei also nicht nur mit großen Sprachmodellen wie ChatGPT möglich, sondern auch mit kleineren, spezialisierten Modellen. In Zukunft will das Team weitere offene Modelle wie Metas LLamA2 testen und erwartet Verbesserungen durch Modelle mit größeren Kontextlängen.
BioCoder blieb jedoch auch für ChatGPT eine Herausforderung, das Modell erreichte nur eine Genauigkeit von knapp unter 50 Prozent. GPT-4 wurde noch nicht getestet.
Mehr Informationen, die Benchmarks, Code und Daten gibt es auf GitHub.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.