Inhalt
summary Zusammenfassung

BioCoder ist ein Benchmark, der die Entwicklung von KI-Modellen für die Bioinformatik unterstützen soll.

Anzeige

Forschende der Yale University und Google Deepmind stellen BioCoder vor, einen Benchmark zum Testen von KI-Modellen bei der Generierung von bioinformatikspezifischem Code. Mit den wachsenden Fähigkeiten von ChatGPT oder spezialisierten Code-Modellen werden die Modelle für immer komplexere Aufgaben eingesetzt, so das Team.

Darüber hinaus stelle in der Bioinformatik die Generierung funktionsfähiger Programme aufgrund der Menge an Domänenwissen, der Notwendigkeit komplexer Datenoperationen und der komplexen funktionalen Abhängigkeiten zwischen Operationen eine große Herausforderung dar.

BioCoder soll helfen, diese Fähigkeiten zu testen - und damit die Entwicklung solcher Modelle zu unterstützen. Der Benchmark umfasst 2.269 Coding-Probleme und integriert Herausforderungen aus der realen Welt wie Abhängigkeiten, Importe und globale Variablen, um die pragmatischen Coding-Fähigkeiten von KI-Modellen besser zu untersuchen.

Anzeige
Anzeige

Als Grundlage dienten 1026 Funktionen und 1243 Methoden in Python und Java, die alle aus Bioinformatik-GitHub-Repositorien stammen und Teil von Peer-Reviewed-Publikationen sind. Das Team erstellte daraus Code-Probleme mit Prompts, Kontext und Beispiellösungen.

ChatGPT Abstand vor anderen Modellen "überraschend"

Mit BioCoder wurden InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ und ChatGPT getestet. OpenAIs GPT-3.5 Turbo schlug die anderen Code-Assistenten so deutlich, dass das Team den Abstand als "überraschend" bezeichnet. "Dieser krasse Gegensatz unterstreicht die entscheidende Rolle, die sowohl die Größe des Datensatzes als auch die Größe der Parameter der Basismodelle bei der Generierung von Code für eine geschlossene Domäne spielen", so das Team.

In einem Experiment konnte das Team jedoch die Leistung von StarCoder durch Feintuning verbessern. Erfolg in spezialisierten Bereichen wie der Bioinformatik sei also nicht nur mit großen Sprachmodellen wie ChatGPT möglich, sondern auch mit kleineren, spezialisierten Modellen. In Zukunft will das Team weitere offene Modelle wie Metas LLamA2 testen und erwartet Verbesserungen durch Modelle mit größeren Kontextlängen.

BioCoder blieb jedoch auch für ChatGPT eine Herausforderung, das Modell erreichte nur eine Genauigkeit von knapp unter 50 Prozent. GPT-4 wurde noch nicht getestet.

Mehr Informationen, die Benchmarks, Code und Daten gibt es auf GitHub.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Yale University und Google Deepmind präsentieren BioCoder, einen Benchmark zur Unterstützung der Entwicklung von KI-Modellen im Bereich Bioinformatik. Der Benchmark umfasst 2.269 Coding-Probleme und integriert reale Herausforderungen wie Abhängigkeiten und globale Variablen.
  • In Tests mit verschiedenen Code-Assistenten, darunter InCoder, CodeGen, SantaCoder und ChatGPT, zeigte OpenAI's GPT-3.5 Turbo die überzeugendsten Ergebnisse – eine Leistung, die das Forschungsteam als "überraschend" bezeichnete.
  • Das Team plant, weitere offene Modelle wie Metas LLamA2 in zukünftigen Tests zu untersuchen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!