OpenAI startet ein neues Programm zur Entwicklung branchenspezifischer KI-Bewertungssysteme. Das "Pioneers Program" soll Benchmarks für Bereiche wie Recht, Finanzen und Gesundheitswesen schaffen, die reale Anwendungsfälle besser abbilden als bestehende Tests. Aktuelle KI-Benchmarks sind laut OpenAI problematisch, da sie oft schwer verständliche Aufgaben messen oder manipulierbar sind - ein Vorwurf, dem sich das Unternehmen selbst immer wieder stellen muss. In den kommenden Monaten will das Unternehmen mit "mehreren Firmen" zusammenarbeiten, um maßgeschneiderte Bewertungsmaßstäbe zu entwickeln und später öffentlich zu teilen. Die erste Gruppe besteht aus ausgewählten Start-ups mit praktischen KI-Anwendungen. Teilnehmende Unternehmen können zudem mit OpenAI an Modellverbesserungen durch Reinforcement-Fine-Tuning arbeiten.
THE DECODER Newsletter
Die wichtigen KI-News direkt ins E-Mail-Postfach.
✓ 1x wöchentlich
✓ kostenlos
✓ jederzeit kündbar
Anzeige
Short
OpenAI führt die Evals API ein, mit der Entwickler Tests programmgesteuert definieren, Auswertungsläufe automatisieren und Prompts schnell iterieren können. Über die API können Evals direkt in Arbeitsabläufe in KI-Tools eingebunden werden. Die Konfiguration der Auswertung, die Testdaten und die Parameter für Testläufe sind über die API genauso konfigurierbar wie in der schon bekannten Evals-Benutzeroberfläche im Dashboard. Mehr Informationen gibt es im OpenAI Cookbook und der API-Dokumentation. Die Evals-API wählt auch Ergebnisse von Nicht-OpenAI-Modellen aus, sofern diese im "Chat Completions API"-Format vorliegen.