KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Update

Einschätzung von Studienteilnehmer Quentin Anthony ergänzt

Update vom 13. Juli 2025:

Quentin Anthony, einer der 16 beteiligten Entwickler, meldete sich öffentlich zu Wort. Ihm gelang es, bei seinen Aufgaben mithilfe von KI eine Verkürzung der Bearbeitungszeit um 38 Prozent zu erreichen – eine Ausnahme im Gesamtergebnis.

Quentin Anthony war einer der vier Entwickler, die durch KI schneller wurden. | Bild: METR

Er erklärt den allgemeinen Produktivitätsverlust nicht mit mangelnder Kompetenz, sondern mit typischen Fehlanwendungen: "Wir sagen zwar, dass LLMs Werkzeuge sind, behandeln sie aber wie eine Wunderwaffe", so Anthony. Ihrer vermeintlichen Nähe zur Lösung wegen neige man dazu, zu viel Zeit mit ihnen zu verbringen, statt effizient zur Zielerreichung beizutragen.

Zudem verweist Anthony auf technische Limitierungen: Große Sprachmodelle seien sehr ungleich verteilt in ihren Fähigkeiten – etwa stark bei Test-Code, aber schwach bei Low-Level-Systementwicklung wie GPU-Kernels oder Synchronisationslogik. Auch der sogenannte "Context Rot", bei dem LLMs durch zu lange oder irrelevante Kontextverläufe unzuverlässig werden, trage dazu bei, dass Entwickler in ineffiziente Interaktionen abrutschen.

Sein Tipp: Konsequent neue Chats starten, Modelle gezielt nach bekannten Stärken auswählen und die Zeit mit LLMs aktiv begrenzen.

Anthony nutzt unterschiedliche Modelle für verschiedene Aufgaben – etwa Gemini für Codeverständnis, Claude für Refaktorierung und Debugging – und bevorzugt direkte API-Zugriffe über IDE-Integrationen, um besser zu kontrollieren, was das Modell tatsächlich sieht. Für ihn ist klar: "LLMs sind Werkzeuge, aber wir müssen ihre Grenzen kennen – und unsere eigenen."

Ursprünglicher Artikel vom 11. Juli 2025:

Eine neue Studie zeigt: Erfahrene Open-Source-Entwickler arbeiten mit KI-Tools langsamer, obwohl sie selbst das Gegenteil glauben.

Eine randomisierte Studie des Forschungsinstituts METR untersucht, wie fortgeschrittene KI-Tools Anfang 2025 die Produktivität erfahrener Open-Source-Entwickler beeinflussen. Mit KI dauert es im Schnitt 19 Prozent länger, reale Entwicklungsaufgaben zu lösen – obwohl die Entwickler selbst das Gegenteil glauben.

Empfehlung

KI-Forschung

OpenAI schlägt Google und Menschen im führenden Coding-Wettbewerb für Studenten

Subjektive Beschleunigung – objektive Verlangsamung

Das Herzstück der Studie bildeten 16 erfahrene Entwickler, die 246 reale Aufgaben aus ihren eigenen, komplexen Open-Source-Projekten bearbeiteten. Noch bevor die eigentliche Arbeit begann, wurde die Erwartung der Entwickler erfasst: Sie schätzten, dass der Einsatz von KI ihre Arbeit um beachtliche 24 Prozent beschleunigen würde.

Um die realen Auswirkungen von KI-Tools auf die Produktivität zu messen, wählte das Forschungsinstitut METR eine randomisierte Kontrollstudie (RCT). Die Methode gilt als Goldstandard, um klare Ursache-Wirkungs-Beziehungen nachzuweisen. | Bild: METR

Anschließend wurde jede einzelne Aufgabe per Zufallsprinzip einer von zwei Gruppen zugeteilt. In der Kontrollgruppe arbeiteten die Entwickler klassisch, ohne generative KI. In der Experimentalgruppe durften sie KI-Assistenten einsetzen, wobei hauptsächlich Cursor Pro mit den damaligen Spitzenmodellen Claude 3.5 und 3.7 Sonnet zum Einsatz kam.

Während der Bearbeitung zeichneten die Entwickler ihre Bildschirme auf und meldeten am Ende die tatsächlich benötigte Implementierungszeit. Um Unterschiede im Schwierigkeitsgrad der Aufgaben zu berücksichtigen, nutzten die Forschenden für die Auswertung ein statistisches Verfahren, das die zuvor von den Entwicklern geschätzte Dauer jeder einzelnen Aufgabe einbezieht. Dadurch konnten sie genau herausfinden, wie stark der Einsatz von KI die Arbeitszeit beeinflusst hat – unabhängig davon, ob die Aufgabe besonders leicht oder schwer war.

Balkendiagramm mit fünf Datenpunkten, die den geschätzten und den gemessenen Einfluss von KI auf die Bearbeitungszeit von Entwicklern darstellen. Vier grüne Punkte links zeigen die erwartete Zeitersparnis durch KI laut Wirtschafts- und ML-Experten sowie den Entwicklern vor und nach der Studie (–40 % bis –20 %). Ganz rechts zeigt ein roter Punkt das tatsächliche Ergebnis: +19 % längere Bearbeitungszeit mit KI. Die Grafik zeigt, dass alle Prognosen zu optimistisch waren. — Erwartung vs. Realität: Während Experten und Entwickler durchweg mit Zeitersparnis rechneten (grün), zeigte die METR-Studie, dass KI den Entwicklungsprozess tatsächlich um durchschnittlich 19 Prozent verlangsamte (rot). | Bild: METR

Der entscheidende Punkt offenbarte sich beim Vergleich der Daten: Obwohl die Entwickler mit KI-Unterstützung objektiv 19 Prozent länger benötigten, war ihre subjektive Einschätzung eine vollkommen andere. Selbst nach Abschluss der Aufgaben glaubten sie weiterhin, durch die KI um 20 Prozent schneller gewesen zu sein.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Um die Ergebnisse abzusichern, schlossen die Forscher auch gezielt mögliche Verzerrungen als Hauptursache aus. Die Verlangsamung war demnach nicht auf eine unvertraute Arbeitsumgebung zurückzuführen, da auch erfahrene Nutzer betroffen waren und kein Lerneffekt eintrat. Ebenso wenig lag es an veralteten KI-Modellen – die eingesetzten Systeme wie Claude 3.7 Sonnet waren zum Studienzeitpunkt hochmodern. Anhand von Bildschirmaufnahmen und robusten statistischen Tests stellten die Forscher zudem sicher, dass weder Regelverstöße noch die Messmethode selbst das Ergebnis verfälschten.

Neue Messmethoden für reale KI-Auswirkungen

Laut METR zeigt die Studie, dass neue Evaluierungsmethoden notwendig sind, um die tatsächliche Leistungsfähigkeit generativer KI abzubilden. Klassische Benchmarks wie SWE-Bench oder RE-Bench testen meist in sich geschlossene Aufgaben, die keinen vorherigen Kontext erfordern und algorithmisch bewertet werden. Das kann zu einer Über- oder Unterschätzung der tatsächlichen Fähigkeiten führen.

Randomisierte Kontrollstudien (RCTs) ergänzen dieses Bild, indem sie reale Aufgaben in realistischen Umgebungen untersuchen. Sie liefern damit wichtiges Zusatzwissen über den tatsächlichen Nutzen – oder auch Schaden – von KI im Arbeitsalltag von Entwicklern.

Gruppiertes Balkendiagramm: Vergleich der durchschnittlichen Zeitanteile für aktives Coden, AI-Prompting, Review, Idle und weitere Aktivitäten in AI-erlaubt (grün) vs AI-verboten (lila). — Mit KI-Erlaubnis verbringen Entwickler weniger Zeit mit aktivem Coden und Suche und mehr Zeit mit Prompting, Review und Leerlauf. | Bild: METR

Ich fragte unseren KI-Entwickler, ob sich die Ergebnisse mit seinen Eindrücken aus dem Arbeitsalltag decken. Er hält sie für plausibel, insbesondere im Kontext gewachsener, komplexer Projekte mit hohen Qualitätsanforderungen und zahlreichen impliziten Regeln wie in Open-Source-Projekten. Hier könnten KI-Tools zusätzlichen Erklärungs- und Kontrollaufwand verursachen.

Anders verhalte es sich bei neuen Projekten oder beim schnellen Prototyping sowie der Arbeit mit bislang unbekannten Frameworks. In solchen Szenarien könnten KI-Tools ihre Stärken ausspielen und Entwickler tatsächlich unterstützen.

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

OpenAI schlägt Google und Menschen im führenden Coding-Wettbewerb für Studenten

Subjektive Beschleunigung – objektive Verlangsamung

Neue Messmethoden für reale KI-Auswirkungen

Deepminds "Vibe Checker" soll KI-Code nach menschlichem Geschmack beurteilen

Google Deepminds CodeMender soll Software-Sicherheitslücken automatisch schließen

Google erweitert Coding-Agenten Jules um Kommandozeile und API-Zugang

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

OpenAI entdeckt nach Sora-App-Launch plötzlich das Urheberrecht

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Subjektive Beschleunigung – objektive Verlangsamung

Neue Messmethoden für reale KI-Auswirkungen

Artikel teilen

Bankverbindung