Anthropic-Studie: KI-Hilfe kann das Lernen neuer Programmier-Skills verschlechtern

31. Januar 2026

Kurz & Knapp

Softwareentwickler, die neue Programmierfähigkeiten mit KI-Hilfe erlernen, schneiden laut einer Anthropic-Studie im Wissenstest schlechter ab als eine Kontrollgruppe ohne KI – ohne dabei Zeit zu sparen.
Der Lernerfolg hängt von der Art der KI-Nutzung ab: Wer Aufgaben vollständig delegiert, lernt kaum; wer gezielt Verständnisfragen stellt, behält den Lernerfolg.
Die Forschenden warnen: Fähigkeiten zur Code-Überprüfung könnten verkümmern, wenn der Kompetenzaufbau durch KI-Nutzung beeinträchtigt wird.

Wer neue Programmierfähigkeiten mit KI-Hilfe erlernt, schneidet bei Wissenstests deutlich schlechter ab. Das zeigt eine neue Studie von Anthropic, die vor einer zu aggressiven KI-Integration am Arbeitsplatz warnt.

Softwareentwickler, die beim Erlernen einer neuen Programmierbibliothek auf KI-Assistenz zurückgreifen, entwickeln laut einer neuen Studie der KI-Firma Anthropic weniger Verständnis für die zugrundeliegenden Konzepte.

Für die Studie rekrutierten die Forschenden 52 hauptsächlich Junior-Softwareentwickler, die seit mindestens einem Jahr regelmäßig mit Python arbeiten und Erfahrung mit KI-Assistenten haben, aber die Trio-Bibliothek nicht kannten. Die Teilnehmer wurden zufällig in zwei Gruppen aufgeteilt: Eine Gruppe hatte Zugang zu einem KI-Assistenten auf Basis von GPT-4o, die Kontrollgruppe arbeitete nur mit der Dokumentation und Websuche. Beide Gruppen sollten zwei Programmieraufgaben mit der Trio-Bibliothek so schnell wie möglich lösen.

Anschließend absolvierten alle Teilnehmer einen Wissenstest zu den verwendeten Konzepten. Das zentrale Ergebnis: Teilnehmer mit KI-Zugang schnitten in diesem Test um 17 Prozent schlechter ab als die Kontrollgruppe ohne KI-Hilfe. Gleichzeitig brachte die KI-Nutzung im Durchschnitt keine signifikante Zeitersparnis bei der Aufgabenerledigung.

KI-Nutzung führte bei lernenden Probanden zu signifikant schlechteren Quiz-Ergebnissen, aber nicht zu signifikant schnellerer Aufgabenerledigung. | Bild: Shen & Tamkin

"Unsere Ergebnisse legen nahe, dass die aggressive Integration von KI am Arbeitsplatz, insbesondere in der Softwareentwicklung, mit Kompromissen verbunden ist", schreiben die Forschenden Judy Hanwen Shen und Alex Tamkin.

Sechs Nutzungsmuster mit unterschiedlichen Lernergebnissen

Die Art der Interaktion mit der KI beeinflusst maßgeblich, wie viel man dabei lernt. Die qualitative Analyse der Bildschirmaufzeichnungen von 51 Teilnehmern offenbarte sechs verschiedene Muster im Umgang mit dem KI-Assistenten. Drei davon führten zu besonders schlechten Testergebnissen mit Quiz-Scores zwischen 24 und 39 Prozent.

Wer die Programmieraufgaben vollständig an die KI delegierte, war zwar am schnellsten fertig, erzielte aber nur 39 Prozent im Quiz. Ähnlich schlecht schnitten Teilnehmer ab, die zunächst selbst arbeiteten, dann aber zunehmend auf KI-generierte Lösungen setzten. Am schlechtesten lernten jene, die die KI wiederholt zum Debugging nutzten, ohne die Fehler selbst zu verstehen.

Drei andere Nutzungsmuster bewahrten dagegen den Lernerfolg mit Quiz-Scores zwischen 65 und 86 Prozent. Die erfolgreichste Strategie: Code von der KI generieren lassen, dann aber gezielt Verständnisfragen stellen. Ebenfalls effektiv war es, bei der Code-Generierung gleichzeitig Erklärungen anzufordern oder die KI ausschließlich für konzeptuelle Fragen zu nutzen.

Diagramm mit den Achsen „Completion Time“ (x-Achse) und „Quiz Score“ (y-Achse), das unterschiedliche KI-Nutzungsarten zeigt, darunter AI Delegation, Progressive AI Reliance, Conceptual Inquiry, Hybrid Code-Explanation, Generation-Then-Comprehension und Iterative AI Debugging, jeweils mit Bearbeitungszeit und Erfolgsquote. — Vergleich verschiedener Nutzungsstrategien von KI bei Programmieraufgaben: Darstellung des Zusammenhangs zwischen Bearbeitungszeit und Quiz-Ergebnis, von einfacher KI-Delegation bis zu Generation-Then-Comprehension (Generieren und anschließend verstehen). | Bild: Anthropic

Zu viel chatten killt die Produktivität

Anders als frühere Studien zur KI-gestützten Programmierung fanden die Forschenden keine Produktivitätszugewinne. Die KI-Nutzer waren statistisch nicht signifikant schneller. Die qualitative Analyse erklärt diesen Befund: Einige Teilnehmer verbrachten bis zu elf Minuten allein mit der Interaktion mit dem KI-Assistenten, etwa beim Formulieren von Anfragen.

Zwei Histogramme nebeneinander. Links: Verteilung der gesamten KI-Interaktionszeit in Minuten, von unter einer Minute bis über zehn Minuten. Rechts: Verteilung der Anzahl der KI-Anfragen pro Teilnehmer, von einer bis zu 15 Anfragen. Beide Grafiken zeigen eine große Streuung in der Nutzungsintensität. — Einige Teilnehmer verbrachten bis zu 30 Prozent der verfügbaren Zeit allein mit der KI-Interaktion. | Bild: Shen & Tamkin

Nur etwa 20 Prozent der Teilnehmer in der KI-Gruppe nutzten den Assistenten ausschließlich zur Code-Generierung. Diese Gruppe war tatsächlich schneller als die Kontrollgruppe, erzielte aber die schlechtesten Lernergebnisse. Die übrigen Teilnehmer stellten zusätzliche Fragen, baten um Erklärungen oder verbrachten Zeit mit dem Verstehen der generierten Lösungen. Die Forschenden vermuten, dass KI eher bei repetitiven oder bereits vertrauten Aufgaben signifikante Produktivitätssteigerungen bringt.

Die Ergebnisse scheinen im Widerspruch zu früheren Untersuchungen zu stehen, die erhebliche Produktivitätssteigerungen durch KI-Assistenz fanden. Anthropics Forscher erklären den scheinbaren Widerspruch: Die früheren Studien maßen Produktivität bei Aufgaben, für die die Teilnehmer bereits die nötigen Fähigkeiten besaßen. Die aktuelle Studie untersucht dagegen, was passiert, wenn Menschen etwas Neues lernen.

Lernen aus Fehlern wird mit KI seltener

Die Kontrollgruppe ohne KI-Zugang machte mehr Fehler und musste sich daher dreimal öfter mit ihnen befassen als die KI-Gruppe. Diese Fehler zwangen die Teilnehmer laut den Forschenden zum kritischen Nachdenken über den Code. Auch das schmerzhafte Feststecken bei einem Problem könnte wichtig für den Kompetenzaufbau sein, so die Studie.

Die größten Unterschiede im Wissenstest zeigten sich bei den Debugging-Fragen. Die Kontrollgruppe hatte während der Aufgabe mehr Trio-spezifische Fehler erlebt, etwa RuntimeWarnings bei nicht erwarteten Coroutinen. Diese Erfahrungen förderten offenbar das Verständnis der Kernkonzepte.

Gestapeltes Balkendiagramm, das die Anzahl der Fehler nach Typ und Gruppe zeigt. Die Kontrollgruppe (No AI) zeigt deutlich mehr Fehler in allen Kategorien, besonders bei TypeError und RuntimeWarning. Die KI-Gruppe hat insgesamt weniger Fehler in jeder Kategorie. — Die Kontrollgruppe ohne KI begegnete deutlich mehr Trio-spezifischen Fehlern wie TypeError und RuntimeWarning, was offenbar das Verständnis der Kernkonzepte förderte. | Bild: Shen & Tamkin

Implikationen für die Arbeitswelt

Die Forschenden warnen vor den Konsequenzen für sicherheitskritische Anwendungen. Wenn Menschen KI-generierten Code überprüfen und debuggen sollen, benötigen sie selbst entsprechende Fähigkeiten. Diese könnten jedoch verkümmern, wenn der Kompetenzaufbau durch KI-Nutzung beeinträchtigt wird.

"KI-gestützte Produktivität ist keine Abkürzung zu Kompetenz", fassen die Forschenden zusammen. Der Schlüssel zum Erhalt der Lernfähigkeit liege in kognitiver Anstrengung: Wer die KI nur für konzeptuelle Fragen nutze oder sich Erklärungen geben lasse, könne den Lernerfolg bewahren.

Die Studie untersuchte nur eine einstündige Aufgabe mit einer Chat-basierten Schnittstelle. Agentenbasierte KI-Systeme wie Claude Code, die noch weniger menschliche Beteiligung erfordern, könnten den negativen Effekt auf den Kompetenzaufbau verstärken. Naheliegend, aber nicht untersucht, ist die Annahme, dass der gehemmte Kompetenzaufbau auch in anderen Bereichen der Wissensarbeit auftritt, etwa beim Schreiben oder Konzipieren.

Bemerkenswert ist, dass Anthropic eine Studie veröffentlicht, deren Ergebnisse dem eigenen Geschäftsmodell potenziell schaden. Das Unternehmen verdient Geld mit KI-Assistenten wie Claude, die Menschen bei der Arbeit unterstützen sollen. Dass die hauseigene Forschungsabteilung vor negativen Auswirkungen genau dieser Produkte warnen darf, ist in der Tech-Branche, gerade in diesen Zeiten, keine Selbstverständlichkeit.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Paper