Inhalt
summary Zusammenfassung

Eine neue Studie zeigt: Erfahrene Open-Source-Entwickler arbeiten mit KI-Tools langsamer, obwohl sie selbst das Gegenteil glauben.

Anzeige

Eine randomisierte Studie des Forschungsinstituts METR untersucht, wie fortgeschrittene KI-Tools Anfang 2025 die Produktivität erfahrener Open-Source-Entwickler beeinflussen. Mit KI dauert es im Schnitt 19 Prozent länger, reale Entwicklungsaufgaben zu lösen – obwohl die Entwickler selbst das Gegenteil glauben.

Subjektive Beschleunigung – objektive Verlangsamung

Das Herzstück der Studie bildeten 16 erfahrene Entwickler, die 246 reale Aufgaben aus ihren eigenen, komplexen Open-Source-Projekten bearbeiteten. Noch bevor die eigentliche Arbeit begann, wurde die Erwartung der Entwickler erfasst: Sie schätzten, dass der Einsatz von KI ihre Arbeit um beachtliche 24 Prozent beschleunigen würde.

Um die realen Auswirkungen von KI-Tools auf die Produktivität zu messen, wählte das Forschungsinstitut METR eine randomisierte Kontrollstudie (RCT). Die Methode gilt als Goldstandard, um klare Ursache-Wirkungs-Beziehungen nachzuweisen. | Bild: METR

Anschließend wurde jede einzelne Aufgabe per Zufallsprinzip einer von zwei Gruppen zugeteilt. In der Kontrollgruppe arbeiteten die Entwickler klassisch, ohne generative KI. In der Experimentalgruppe durften sie KI-Assistenten einsetzen, wobei hauptsächlich Cursor Pro mit den damaligen Spitzenmodellen Claude 3.5 und 3.7 Sonnet zum Einsatz kam.

Anzeige
Anzeige

Während der Bearbeitung zeichneten die Entwickler ihre Bildschirme auf und meldeten am Ende die tatsächlich benötigte Implementierungszeit. Um Unterschiede im Schwierigkeitsgrad der Aufgaben zu berücksichtigen, nutzten die Forschenden für die Auswertung ein statistisches Verfahren, das die zuvor von den Entwicklern geschätzte Dauer jeder einzelnen Aufgabe einbezieht. Dadurch konnten sie genau herausfinden, wie stark der Einsatz von KI die Arbeitszeit beeinflusst hat – unabhängig davon, ob die Aufgabe besonders leicht oder schwer war.

Balkendiagramm mit fünf Datenpunkten, die den geschätzten und den gemessenen Einfluss von KI auf die Bearbeitungszeit von Entwicklern darstellen. Vier grüne Punkte links zeigen die erwartete Zeitersparnis durch KI laut Wirtschafts- und ML-Experten sowie den Entwicklern vor und nach der Studie (–40 % bis –20 %). Ganz rechts zeigt ein roter Punkt das tatsächliche Ergebnis: +19 % längere Bearbeitungszeit mit KI. Die Grafik zeigt, dass alle Prognosen zu optimistisch waren.
Erwartung vs. Realität: Während Experten und Entwickler durchweg mit Zeitersparnis rechneten (grün), zeigte die METR-Studie, dass KI den Entwicklungsprozess tatsächlich um durchschnittlich 19 Prozent verlangsamte (rot). | Bild: METR

Der entscheidende Punkt offenbarte sich beim Vergleich der Daten: Obwohl die Entwickler mit KI-Unterstützung objektiv 19 Prozent länger benötigten, war ihre subjektive Einschätzung eine vollkommen andere. Selbst nach Abschluss der Aufgaben glaubten sie weiterhin, durch die KI um 20 Prozent schneller gewesen zu sein.

Um die Ergebnisse abzusichern, schlossen die Forscher auch gezielt mögliche Verzerrungen als Hauptursache aus. Die Verlangsamung war demnach nicht auf eine unvertraute Arbeitsumgebung zurückzuführen, da auch erfahrene Nutzer betroffen waren und kein Lerneffekt eintrat. Ebenso wenig lag es an veralteten KI-Modellen – die eingesetzten Systeme wie Claude 3.7 Sonnet waren zum Studienzeitpunkt hochmodern. Anhand von Bildschirmaufnahmen und robusten statistischen Tests stellten die Forscher zudem sicher, dass weder Regelverstöße noch die Messmethode selbst das Ergebnis verfälschten.

Neue Messmethoden für reale KI-Auswirkungen

Laut METR zeigt die Studie, dass neue Evaluierungsmethoden notwendig sind, um die tatsächliche Leistungsfähigkeit generativer KI abzubilden. Klassische Benchmarks wie SWE-Bench oder RE-Bench testen meist in sich geschlossene Aufgaben, die keinen vorherigen Kontext erfordern und algorithmisch bewertet werden. Das kann zu einer Über- oder Unterschätzung der tatsächlichen Fähigkeiten führen.

Randomisierte Kontrollstudien (RCTs) ergänzen dieses Bild, indem sie reale Aufgaben in realistischen Umgebungen untersuchen. Sie liefern damit wichtiges Zusatzwissen über den tatsächlichen Nutzen – oder auch Schaden – von KI im Arbeitsalltag von Entwicklern.

Empfehlung
Gruppiertes Balkendiagramm: Vergleich der durchschnittlichen Zeitanteile für aktives Coden, AI-Prompting, Review, Idle und weitere Aktivitäten in AI-erlaubt (grün) vs AI-verboten (lila).
Mit KI-Erlaubnis verbringen Entwickler weniger Zeit mit aktivem Coden und Suche und mehr Zeit mit Prompting, Review und Leerlauf. | Bild: METR

Ich fragte unseren KI-Entwickler, ob sich die Ergebnisse mit seinen Eindrücken aus dem Arbeitsalltag decken. Er hält sie für plausibel, insbesondere im Kontext gewachsener, komplexer Projekte mit hohen Qualitätsanforderungen und zahlreichen impliziten Regeln wie in Open-Source-Projekten. Hier könnten KI-Tools zusätzlichen Erklärungs- und Kontrollaufwand verursachen.

Anders verhalte es sich bei neuen Projekten oder beim schnellen Prototyping sowie der Arbeit mit bislang unbekannten Frameworks. In solchen Szenarien könnten KI-Tools ihre Stärken ausspielen und Entwickler tatsächlich unterstützen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine randomisierte Studie des Forschungsinstituts METR zeigt, dass erfahrene Open-Source-Entwickler mit fortgeschrittenen KI-Tools im Schnitt 19 Prozent länger für reale Entwicklungsaufgaben benötigen, obwohl sie selbst von einer Zeitersparnis ausgehen.
  • Die Untersuchung stellt fest, dass klassische Benchmarks wie SWE-Bench oder RE-Bench den tatsächlichen Nutzen generativer KI oft nicht abbilden.
  • Die Autoren betonen daher, dass neue Evaluierungsmethoden gebraucht werden, da bisherige Tests reale Arbeitsabläufe, Kontext und Teaminteraktion nicht ausreichend berücksichtigen und so die Leistungsfähigkeit von KI-Tools verzerrt darstellen können.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!