KI-Code-Qualität wird laut Studie überschätzt: Profis lehnen jeden zweiten Vorschlag ab
Kurz & Knapp
- Die Forschungsorganisation METR hat den populären Coding-Benchmark SWE-bench Verified untersucht und festgestellt, dass er die tatsächliche Leistungsfähigkeit von KI-Agenten erheblich überschätzt.
- Vier erfahrene Entwickler, die Open-Source-Projekte wie scikit-learn, Sphinx und pytest aktiv betreuen, begutachteten 296 KI-generierte Code-Beiträge – rund die Hälfte der Lösungen, die den automatischen Prüfer bestanden hatten, würden sie nicht in die Software übernehmen.
- Ein wesentlicher Teil der Ablehnungen geht nicht auf schlechten Programmierstil zurück, sondern auf grundlegende Funktionsfehler: Die KI-Agenten lösen das eigentliche Problem nicht korrekt, obwohl die automatisierten Tests bestanden werden.
Eine neue Untersuchung der Forschungsorganisation METR legt nahe, dass der populäre Coding-Benchmark SWE-bench Verified die tatsächliche Leistungsfähigkeit von KI-Agenten erheblich überschätzt. Rund die Hälfte der als "bestanden" gewerteten Lösungen würde von echten Projektverantwortlichen abgelehnt.
SWE-bench Verified gilt als einer der wichtigsten Benchmarks für KI-gestütztes Software-Engineering. Er misst, ob KI-Agenten reale Programmierprobleme aus Open-Source-Projekten lösen können, wobei ein automatisierter Prüfer kontrolliert, ob die eingereichten Code-Änderungen die zugehörigen Tests bestehen. Unternehmen wie Anthropic und OpenAI nutzen die Ergebnisse regelmäßig, um den Fortschritt ihrer Modelle zu belegen.
Eine Untersuchung von METR stellt nun die Aussagekraft dieses Benchmarks grundlegend in Frage. Das Forscherteam um Parker Whitfill, Cheryl Wu, Joel Becker und Nate Rush ließ vier erfahrene Entwickler, die drei SWE-bench-Projekte (scikit-learn, Sphinx und pytest) aktiv betreuen, insgesamt 296 KI-generierte Code-Beiträge begutachten. Etwa die Hälfte der Lösungen, die den automatischen Prüfer bestanden hatten, würde von den Projektverantwortlichen, sogenannten Maintainern, nicht in die eigentliche Software übernommen werden.
Automatische Tests erfassen nur einen Teil der Code-Qualität
Die Studie nutzte KI-generierte Lösungen von fünf Modellen: Claude 3.5 Sonnet (Old), Claude 3.7 Sonnet, Claude 4 Opus, Claude 4.5 Sonnet und GPT-5. Die Testläufe stammten aus dem Benchmarking Hub von Epoch AI. Die Maintainer wussten nicht, ob eine Lösung von einem Menschen oder einer KI stammte.
Um das Rauschen in menschlichen Entscheidungen zu kontrollieren, ließen die Forscher die Maintainer auch originale menschliche Lösungen bewerten, die tatsächlich in die Projekte übernommen worden waren. Nur 68 Prozent dieser Referenzlösungen wurden erneut zur Übernahme freigegeben. Alle Ergebnisse wurden an dieser Baseline normalisiert.
Die Übernahmequote durch die Maintainer liegt im Durchschnitt rund 24 Prozentpunkte unter dem SWE-bench-Score. Dieser Unterschied ist laut METR statistisch signifikant. Die Verbesserungsrate über die Zeit fällt bei den menschlichen Bewertungen zudem um etwa 9,6 Prozentpunkte pro Jahr geringer aus, wobei die Forscher dieses Trend-Ergebnis selbst als statistisch schwächer einordnen.

Nicht nur eine Frage des Stils
Die Maintainer kategorisierten ihre Ablehnungen in drei Stufen. Mangelnde Code-Qualität, etwa schlechter Stil oder Nichteinhaltung von Projektstandards, Beschädigung von bestehendem Code und grundlegende Funktionsfehler. Laut dem METR-Bericht entfällt ein "bedeutender Teil" der Ablehnungen auf grundlegende Funktionsfehler. Die KI-Agenten lösen also das eigentliche Problem nicht korrekt, obwohl die automatisierten Tests bestanden werden.
Der Sprung von Claude 3.5 Sonnet zu Claude 3.7 Sonnet brachte zwar deutlich höhere Bestehensquoten, führte aber gleichzeitig zu mehr Fällen, in denen Maintainer grundlegende Funktionsfehler identifizierten. Von Claude 3.7 zu Claude 4 Opus verschoben sich die Probleme von "Test nicht bestanden" hin zu "nur schlechte Code-Qualität". Claude 4.5 Sonnet brachte primär Verbesserungen bei der Code-Qualität. GPT-5 schnitt hier laut der Studie deutlich schlechter ab als die Anthropic-Modelle.
Siebenfache Überschätzung bei Zeithorizont-Analyse
Die Forscher wandten zusätzlich eine Zeithorizont-Methodik an, die Benchmark-Scores in die menschliche Bearbeitungszeit umrechnet, bei der ein Modell 50 Prozent Erfolgsquote erreicht. Die Diskrepanz ist drastisch: Claude 4.5 Sonnet erreicht laut automatischem Prüfer einen Zeithorizont von etwa 50 Minuten, laut Maintainer-Bewertung jedoch nur rund 8 Minuten.
Was METR hier beschreibt, ist im Grunde bekannt: Benchmarks sind bestenfalls ein Indikator für die reale Leistungsfähigkeit von KI-Modellen. Wichtiger sind Rückmeldungen aus der Praxis. Hier gibt es beide Perspektiven: Zahlreiche Entwickler bestätigen die Leistungsfähigkeit von KI-Agenten beim Programmieren, gleichzeitig gibt es auch kritische Stimmen zur Qualität des KI-generierten Codes.
Der KI-Coding-Hype der letzten circa vier Monate bezieht sich zudem auf die KI-Modelle ab GPT-5.2-Thinking und Claude Opus 4.5 aufwärts. Diese Modelle waren nicht Teil des Tests, die Studie untersuchte nur schwächere Vorgänger.
Dennoch: Sollten sich die Ergebnisse als belastbar erweisen, wäre die Diskrepanz dennoch bemerkenswert groß. SWE-bench Verified gilt als Goldstandard für die Bewertung von KI-Code-Agenten. Wenn die Hälfte der dort als "bestanden" gewerteten Lösungen einer echten menschlichen Prüfung nicht standhält, stellt das nicht nur die Aussagekraft einzelner Modellvergleiche in Frage, sondern auch die Grundlage, auf der Investoren, Unternehmen und Entwickler ihre Erwartungen an KI-gestützte Softwareentwicklung aufbauen.
Relevante Studie mit Einschränkungen
Die Forscher betonen ausdrücklich, dass die Studie keine grundlegende Fähigkeitsgrenze der Modelle belege. Es sei "plausibel", dass bessere Prompting-Strategien und gezieltere Anweisungen an die KI-Agenten die Lücke zwischen automatischer Bewertung und menschlichem Urteil verkleinern könnten.
Zudem wurden Menschen und KI nicht unter gleichen Bedingungen verglichen. Menschliche Entwickler können normalerweise auf Feedback reagieren und ihre Lösungen überarbeiten, die KI-Agenten hatten jedoch nur einen einzigen Versuch. Auch das Review-Setup war nicht vollständig realistisch. Den Maintainern standen keine automatisierten Prüfwerkzeuge zur Verfügung, die Probleme stammten aus älteren Projektständen, und Anforderungen an Tests wurden zugunsten der KI-Agenten bewusst ausgesetzt.
Die Studie sei daher keine Aussage über das maximal Mögliche der Modelle, sondern zeige, dass eine naive Interpretation von Benchmark-Scores die tatsächliche Nützlichkeit von KI-Agenten ohne zusätzliche Anpassungen und menschliches Feedback überschätze. Die Forscher vermuten, dass ähnliche Verzerrungen auch bei anderen Benchmarks auftreten.
Mitautor Joel Becker, Forscher bei METR, relativiert auf X zudem die Tragweite der eigenen Ergebnisse. Sein zentrales Fazit sei nicht, dass KI-Agenten grundsätzlich unbrauchbar seien. Bei einer Verdopplungszeit der KI-Fähigkeiten von drei bis sechs Monaten würden selbst zwei- bis zehnfache Leistungsunterschiede schnell aufgeholt.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren