Forscher liefern weiteren Grund zur Skepsis bei KI-Benchmarks

Midjourney prompted by THE DECODER

Eine unabhängige Untersuchung zeigt, dass OpenAIs o1 bei Programmiertests nur etwa 30 Prozent der Aufgaben löst - deutlich weniger als vom Unternehmen angegeben. Der Fall wirft erneut grundsätzliche Fragen zur Aussagekraft von KI-Benchmarks auf.

Laut einer Untersuchung des KI-Forschers Alejandro Cuadron löst OpenAIs neuestes Sprachmodell o1 bei Programmieraufgaben im "SWE-Bench Verified"-Benchmark nur etwa 30 Prozent der gestellten Aufgaben - deutlich weniger als die vom Unternehmen angegebenen knapp 49 Prozent. Der Benchmark testet, ob KI-Modelle reale Aufgaben von Github lösen können.

Anthropics Sonnet 3.5 löste im gleichen Test 53 Prozent der Aufgaben, was aber darauf zurückzuführen sein könnte, dass das Modell an der Entwicklung des verwendeten Testverfahrens beteiligt war. Aber auch das deutlich billigere Modell Deepseek v3 konnte in den Tests von Cuadron fast die gleichen Ergebnisse wie OpenAI o1 erzielen.

Balkendiagramm: Vergleich der Leistung von KI-Modellen auf SWE-Bench Verified, Sonnet 3.5 führt mit 50%, gefolgt von O1 mit 30%. — Während Sonnet 3.5 mit über 50% führt, erreicht OpenAs O1 nur 30% - deutlich unter dem behaupteten Wert von 48.9%. | Bild: via X

Unterschiedliche Testverfahren, unterschiedliche Ergebnisse

Die Diskrepanz zwischen den Testergebnissen ist auf unterschiedliche Messmethoden zurückzuführen: OpenAI nutzte für seine Tests das Open-Source-Framework "Agentless", das der KI sehr enge Vorgaben für die Lösung von Programmieraufgaben macht.

Cuadron hingegen verwendete das Framework "OpenHands", das der KI mehr Freiheiten bei der Problemlösung lässt. Laut Cuadron war OpenHands zum Zeitpunkt der Tests von OpenAI der Goldstandard, OpenAI verwendete es trotzdem nicht.

Die Forscher vermuten, dass die starre Testmethode von OpenAI KI-Modelle begünstigt, die einfach Lösungen aus den Trainingsdaten auswendig lernen, anstatt wirklich zu planen und Probleme selbstständig zu lösen.

Bereits zuvor hatte ein Benchmark zur Reiseplanung gezeigt, dass o1-preview von OpenAI im Bereich der Planung noch Schwächen aufweist. Eine Studie von Apple zeigte, dass leicht veränderte mathematische Probleme zu einer deutlich schlechteren Leistung führten - was darauf hindeutet, dass das Modell nicht gut darin ist, Wissen zu verallgemeinern.

Das wiederum steht in direktem Widerspruch zu den Behauptungen von OpenAI, dass die Stärke ihrer o-Modelle in ihren logischen Fähigkeiten liegt, mit denen sie neue, noch nie gesehene Probleme lösen können.

Unabhängig davon, welche Messung der Wahrheit am nächsten kommt: Der Fall zeigt wieder einmal, dass die Ergebnisse in KI-Benchmarks von vielen Faktoren abhängen. Diese Art der direkten oder indirekten Optimierung auf Testverfahren macht es für Außenstehende schwierig, die tatsächliche Leistungsfähigkeit eines KI-Systems zu beurteilen.

Empfehlung

KI-Forschung

MatterGen: Microsoft stellt KI-Tools zum Generieren und Simulieren neuer Materialien vor

Dennoch sind Benchmark-Resultate häufig der Motor für PR und Marketingkommunikation, die wiederum ihren Teil dazu beitragen, dass die beteiligten Unternehmen etwa Geld von Investoren erhalten.

Logan Kilpatrick, Produktleiter bei Google AI Studio, betont die Bedeutung von überprüfbaren und offenen Testverfahren. Er vermutet zwar keine böse Absicht seitens OpenAI, sieht aber die Notwendigkeit, solche Bewertungsprobleme zu lösen - besonders auf dem Weg zu fortgeschritteneren KI-Systemen.

"Die Welt benötigt mehr, bessere, härtere etc. Benchmarks für KI. Das ist eines der wichtigsten Themen unserer Zeit und entscheidend für den weiteren Fortschritt", schreibt Kilpatrick, der letztes Jahr von OpenAI zu Google wechselte.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Forscher liefern weiteren Grund zur Skepsis bei KI-Benchmarks

Unterschiedliche Testverfahren, unterschiedliche Ergebnisse

MatterGen: Microsoft stellt KI-Tools zum Generieren und Simulieren neuer Materialien vor

GPT-4.5 ist nicht mehr das teuerste KI-Modell

OpenAI entdeckt neue "Nerd Sniping"-Angriffsmethode auf Reasoning-Modelle

OpenAI erweitert API um o1-Modell mit Function Calling und mehr

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Forscher liefern weiteren Grund zur Skepsis bei KI-Benchmarks

Unterschiedliche Testverfahren, unterschiedliche Ergebnisse

Artikel teilen

Bankverbindung