Inhalt
summary Zusammenfassung

Eine unabhängige Untersuchung zeigt, dass OpenAIs o1 bei Programmiertests nur etwa 30 Prozent der Aufgaben löst - deutlich weniger als vom Unternehmen angegeben. Der Fall wirft erneut grundsätzliche Fragen zur Aussagekraft von KI-Benchmarks auf.

Anzeige

Laut einer Untersuchung des KI-Forschers Alejandro Cuadron löst OpenAIs neuestes Sprachmodell o1 bei Programmieraufgaben im "SWE-Bench Verified"-Benchmark nur etwa 30 Prozent der gestellten Aufgaben - deutlich weniger als die vom Unternehmen angegebenen knapp 49 Prozent. Der Benchmark testet, ob KI-Modelle reale Aufgaben von Github lösen können.

Anthropics Sonnet 3.5 löste im gleichen Test 53 Prozent der Aufgaben, was aber darauf zurückzuführen sein könnte, dass das Modell an der Entwicklung des verwendeten Testverfahrens beteiligt war. Aber auch das deutlich billigere Modell Deepseek v3 konnte in den Tests von Cuadron fast die gleichen Ergebnisse wie OpenAI o1 erzielen.

Balkendiagramm: Vergleich der Leistung von KI-Modellen auf SWE-Bench Verified, Sonnet 3.5 führt mit 50%, gefolgt von O1 mit 30%.
Während Sonnet 3.5 mit über 50% führt, erreicht OpenAs O1 nur 30% - deutlich unter dem behaupteten Wert von 48.9%. | Bild: via X

Unterschiedliche Testverfahren, unterschiedliche Ergebnisse

Die Diskrepanz zwischen den Testergebnissen ist auf unterschiedliche Messmethoden zurückzuführen: OpenAI nutzte für seine Tests das Open-Source-Framework "Agentless", das der KI sehr enge Vorgaben für die Lösung von Programmieraufgaben macht.

Anzeige
Anzeige

Cuadron hingegen verwendete das Framework "OpenHands", das der KI mehr Freiheiten bei der Problemlösung lässt. Laut Cuadron war OpenHands zum Zeitpunkt der Tests von OpenAI der Goldstandard, OpenAI verwendete es trotzdem nicht.

Die Forscher vermuten, dass die starre Testmethode von OpenAI KI-Modelle begünstigt, die einfach Lösungen aus den Trainingsdaten auswendig lernen, anstatt wirklich zu planen und Probleme selbstständig zu lösen.

Bereits zuvor hatte ein Benchmark zur Reiseplanung gezeigt, dass o1-preview von OpenAI im Bereich der Planung noch Schwächen aufweist. Eine Studie von Apple zeigte, dass leicht veränderte mathematische Probleme zu einer deutlich schlechteren Leistung führten - was darauf hindeutet, dass das Modell nicht gut darin ist, Wissen zu verallgemeinern.

Das wiederum steht in direktem Widerspruch zu den Behauptungen von OpenAI, dass die Stärke ihrer o-Modelle in ihren logischen Fähigkeiten liegt, mit denen sie neue, noch nie gesehene Probleme lösen können.

Unabhängig davon, welche Messung der Wahrheit am nächsten kommt: Der Fall zeigt wieder einmal, dass die Ergebnisse in KI-Benchmarks von vielen Faktoren abhängen. Diese Art der direkten oder indirekten Optimierung auf Testverfahren macht es für Außenstehende schwierig, die tatsächliche Leistungsfähigkeit eines KI-Systems zu beurteilen.

Empfehlung

Dennoch sind Benchmark-Resultate häufig der Motor für PR und Marketingkommunikation, die wiederum ihren Teil dazu beitragen, dass die beteiligten Unternehmen etwa Geld von Investoren erhalten.

Logan Kilpatrick, Produktleiter bei Google AI Studio, betont die Bedeutung von überprüfbaren und offenen Testverfahren. Er vermutet zwar keine böse Absicht seitens OpenAI, sieht aber die Notwendigkeit, solche Bewertungsprobleme zu lösen - besonders auf dem Weg zu fortgeschritteneren KI-Systemen.

"Die Welt benötigt mehr, bessere, härtere etc. Benchmarks für KI. Das ist eines der wichtigsten Themen unserer Zeit und entscheidend für den weiteren Fortschritt", schreibt Kilpatrick, der letztes Jahr von OpenAI zu Google wechselte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine unabhängige Untersuchung des KI-Forschers Alejandro Cuadron zeigt, dass OpenAIs neuestes Sprachmodell o1 bei Programmieraufgaben im SWE-Bench Verified"-Benchmark nur rund 30 Prozent der gestellten Aufgaben löst - deutlich weniger als die vom Unternehmen angegebenen knapp 49 Prozent.
  • Die große Diskrepanz zwischen den Testergebnissen ist auf die unterschiedliche Methodik zurückzuführen: OpenAI verwendete für seine Tests ein Programm namens "Agentless", das der KI sehr enge Vorgaben für die Lösung von Programmieraufgaben macht, während Cuadron auf "OpenHands" setzte, das der KI mehr Freiheiten bei der Problemlösung einräumt.
  • Der Fall zeigt wieder einmal, dass die Ergebnisse von KI-Benchmarks von vielen Faktoren abhängen und es für Außenstehende schwierig ist, die tatsächliche Leistungsfähigkeit eines KI-Systems einzuschätzen, ganz zu Schweigen vom praktischen Nutzen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!