Inhalt
summary Zusammenfassung

OpenAI hat mit MLE-bench einen neuen Benchmark vorgestellt, der die Fähigkeiten von KI-Agenten bei der Entwicklung von Machine-Learning-Lösungen misst. Der Test umfasst 75 Kaggle-Wettbewerbe und soll helfen, die Fortschritte bei autonomen KI-Systemen für ML-Engineering zu bewerten.

Anzeige

Laut OpenAI soll MLE-bench eine robuste Messung der Fortschritte bei autonomen ML-Engineering-Agenten ermöglichen. Der Benchmark konzentriert sich dabei auf zwei Hauptaspekte: Die Auswahl von Aufgaben, die sowohl anspruchsvoll als auch repräsentativ für die aktuelle ML-Entwicklung sind, sowie die Möglichkeit, die Ergebnisse mit menschlichen Leistungen zu vergleichen.

Die 75 Wettbewerbe decken verschiedene Bereiche ab, darunter natürliche Sprachverarbeitung, Computer Vision und Signalverarbeitung. Viele der Aufgaben haben laut OpenAI einen realen Bezug, wie etwa die Vorhersage des Abbaus von COVID-19-mRNA-Impfstoffen oder die Entschlüsselung antiker Schriftrollen.

Erste Ergebnisse zeigen Potenzial und Grenzen

In ersten Experimenten hat OpenAI verschiedene KI-Modelle und Agent-Frameworks auf MLE-bench getestet. Das beste Ergebnis erzielte demnach das Modell o1-preview in Kombination mit dem AIDE-Framework. Es erreichte in 16,9 % der Wettbewerbe mindestens eine Bronze-Medaille und hing Anthropics Claude 3.5 Sonnet ab.

Anzeige
Anzeige

Die Forscher untersuchten auch, wie sich verschiedene Formen des Skalierens auf die Leistung der KI-Agenten auswirken. Dabei zeigte sich, dass mehr Versuche pro Wettbewerb die Erfolgsquote deutlich steigern: Bei 8 Versuchen verdoppelte sich die Medaillenquote von o1-preview auf 34,1%.

Auch eine Verlängerung der Bearbeitungszeit von 24 auf 100 Stunden pro Wettbewerb führte zu besseren Ergebnissen. GPT-4o steigerte sich dabei von 8,7% auf 11,8% Medaillen.

Überraschenderweise hatte die Bereitstellung zusätzlicher Rechenleistung in Form von GPUs keinen signifikanten Einfluss auf die Leistung. Die Forscher vermuten, dass die KI-Agenten die zusätzlichen Ressourcen noch nicht effektiv nutzen können.

MLE-bench soll weiter geführt werden

Bei der Entwicklung von MLE-bench musste OpenAI einige Herausforderungen bewältigen. Da die verwendeten Kaggle-Wettbewerbe öffentlich zugänglich sind, besteht laut dem Unternehmen das Risiko, dass die getesteten Modelle bereits während ihres Trainings mit den Aufgaben oder Lösungen in Berührung gekommen sein könnten.

Um diesem Problem zu begegnen, hat OpenAI verschiedene Maßnahmen ergriffen. So wurde ein Plagiatsdetektor eingesetzt, der die Einreichungen der Agenten mit den Top-Lösungen der jeweiligen Kaggle-Wettbewerbe vergleicht. Einreichungen mit einer Ähnlichkeit von über 60 % werden zur manuellen Überprüfung markiert.

Empfehlung

Zusätzlich führte OpenAI Experimente durch, um mögliche Kontaminationseffekte zu untersuchen. Dabei fand das Unternehmen keine Korrelation zwischen der Vertrautheit von GPT-4 mit einem Wettbewerb und seiner Leistung in diesem Wettbewerb.

OpenAI räumt ein, dass MLE-bench nicht alle Aspekte der KI-Forschung und -Entwicklung abdeckt. Der Benchmark konzentriert sich auf Aufgaben mit klaren Problemstellungen, sauberen Datensätzen und eindeutigen Bewertungsmetriken. In der realen Welt seien die Herausforderungen oft weniger klar definiert.

Dennoch sieht OpenAI MLE-bench als wichtiges Werkzeug, um die Kernkompetenzen im Bereich des ML-Engineering zu evaluieren. Dazu gehören laut dem Unternehmen die Vorbereitung großer multimodaler Datensätze, das Management langfristiger Trainingsabläufe und das Debugging schlecht funktionierender Modelle.

Der Benchmark ist über GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat MLE-bench vorgestellt, einen neuen Benchmark zur Messung der Fähigkeiten von KI-Agenten bei der Entwicklung von Machine-Learning-Lösungen. Der Test umfasst 75 Kaggle-Wettbewerbe aus verschiedenen Bereichen wie natürliche Sprachverarbeitung und Computer Vision.
  • In ersten Experimenten erzielte das Modell o1-preview mit dem AIDE-Framework die besten Ergebnisse. Es erreichte in 16,9 % der Wettbewerbe mindestens eine Bronze-Medaille. Mehr Versuche pro Wettbewerb und längere Bearbeitungszeiten führten zu besseren Ergebnissen, während zusätzliche GPU-Leistung keinen signifikanten Einfluss hatte.
  • OpenAI sieht MLE-bench als wichtiges Werkzeug zur Evaluation von Kernkompetenzen im ML-Engineering, räumt aber ein, dass der Benchmark nicht alle Aspekte der KI-Forschung abdeckt. Um mögliche Kontaminationseffekte zu vermeiden, wurden verschiedene Maßnahmen wie ein Plagiatsdetektor implementiert.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!