Cursor-Experiment verschiebt die Grenzen autonomer KI-Entwicklung

20. Januar 2026

Nano Banana Pro prompted by THE DECODER

Einen Webbrowser von Grund auf neu zu entwickeln, gilt als eines der komplexesten Softwareprojekte überhaupt. Cursor hat hunderte autonom arbeitende KI-Agenten auf genau diese Aufgabe angesetzt und nach knapp einer Woche einen lauffähigen Browser mit eigener Rendering-Engine vorgelegt.

"Ich muss zugeben, ich bin sehr überrascht, dass etwas so Leistungsfähiges so schnell entstanden ist", schreibt Simon Willison, britischer Programmierer und Mitschöpfer des Django-Webframeworks. Willison ist zudem ein einflussreicher, unabhängiger Blogger mit KI-Fokus und prägte 2022 den Begriff "Prompt Injection" für eine kritische Sicherheitslücke bei LLMs (nachdem zuvor Jonathan Cefalu das Problem als "command injection" an OpenAI meldete). Seine Einschätzungen zur KI-gestützten Softwareentwicklung werden in der Branche aufmerksam verfolgt.

Noch Anfang Januar hatte Willison prognostiziert, dass ein KI-gestützter Webbrowser frühestens 2029 realistisch sei. Nun korrigiert er sich selbst: "Ich lag möglicherweise drei Jahre daneben." Der Browser rendert Webseiten erkennbar korrekt, wenn auch mit sichtbaren Fehlern, die zeigen, dass hier keine bestehende Engine verwendet wird. Aber das entspreche in etwa der Ergebnisqualität, die ihm vorgeschwebt sei.

Flache Hierarchien scheiterten

Der Weg zum funktionierenden System war nicht geradlinig. Cursors erster Ansatz – Agenten mit gleichem Status, die sich über eine gemeinsame Datei koordinieren – scheiterte spektakulär. Das Problem: Wenn ein Agent eine Aufgabe übernehmen wollte, musste er sie erst "sperren", damit kein anderer Agent dieselbe Arbeit beginnt. Doch die Agenten hielten diese Locks zu lange oder vergaßen, sie wieder freizugeben. Das Ergebnis: 20 Agenten hatten nur den effektiven Durchsatz von zwei oder drei, weil die meiste Zeit mit Warten verbracht wurde.

Ohne klare Hierarchie zeigten sich die Agenten zudem risikoscheu. "Sie vermieden schwierige Aufgaben und machten stattdessen kleine, sichere Änderungen. Kein Agent übernahm Verantwortung für harte Probleme oder End-to-End-Implementierungen." Die Arbeit drehte sich im Kreis, ohne echten Fortschritt.

Planer, Worker und ein Richter

Als Lösung schlägt Cursor eine klare Rollentrennung vor. Planer erkunden kontinuierlich die Codebase und erstellen Aufgaben. Sie können dabei Sub-Planer für spezifische Bereiche spawnen, etwa einen Sub-Planer nur für das CSS-Rendering oder einen für die JavaScript-Engine. So wird die Planung selbst parallel und rekursiv.

Worker hingegen kümmern sich nicht ums große Ganze. Sie nehmen sich eine Aufgabe, arbeiten sie ab, pushen ihre Änderungen. Am Ende jedes Zyklus entscheidet ein Judge Agent, ob das Projekt abgeschlossen ist oder eine weitere Iteration starten soll.

Prompt-Engineering bleibt weiter wichtig

"Viele unserer Verbesserungen kamen dadurch, dass wir Komplexität entfernt haben, nicht hinzugefügt", schreibt Wilson Lin von Cursor. Eine eigens eingeführte Integrator-Rolle für Qualitätskontrolle und Konfliktlösung etwa schuf mehr Engpässe, als sie löste, und die Worker konnten Konflikte selbst besser handhaben.

Die Modellwahl erwies sich ebenfalls als entscheidend für lange autonome Arbeit. GPT-5.2 sei deutlich besser darin, Anweisungen zu befolgen, den Fokus zu halten und Drift zu vermeiden. Opus 4.5 hingegen neige dazu, früher aufzuhören und Abkürzungen zu nehmen – es gebe schneller die Kontrolle zurück, statt eine Aufgabe vollständig abzuschließen.

Verschiedene Modelle für verschiedene Rollen funktionierten daher am zuverlässigsten. GPT-5.2 sei ein besserer Planer als GPT-5.1-Codex obwohl letzteres Modell speziell für Coding trainiert wurde. Cursor setzt nun für jede Rolle das jeweils am besten geeignete Modell ein. Doch das alleine reicht nicht: "Ein überraschend großer Teil des Systemverhaltens hängt davon ab, wie wir die Agenten prompten. Das Harness und die Modelle sind wichtig, aber die Prompts sind wichtiger."

Die Browser-Entwicklung mit etwa einer Million Zeilen Code über mehr als 1.000 Dateien hinweg (bei GitHub verfügbar) dauerte laut Cursor mehrere Wochen. "Trotz der Größe der Codebase können neue Agenten sie verstehen und sinnvolle Fortschritte erzielen. Hunderte Agenten arbeiten parallel und pushen in denselben Branch – mit minimalen Konflikten", schreibt Cursor.

Weitere laufende Projekte

Die Firma ließ parallel Agenten auch eine Solid-zu-React-Migration in der eigenen Codebase durchführen, eine massive Umstellung des Frontend-Frameworks. Das dauerte mehr als drei Wochen und umfasste +266.000/-193.000 Zeilen Code. Das Ergebnis bestand bereits die CI-Tests, brauche aber noch ein umfassendes menschliches Review.

Ein weiterer Agent habe Video-Rendering durch eine effiziente Rust-Implementierung beschleunigt. Dieser Code soll bald in Produktion gehen. Weitere Projekte laufen noch: ein Java Language Server Protocol (7.400 Commits, 550.000 Zeilen Code), ein Windows-7-Emulator (14.600 Commits, 1,2 Millionen Zeilen) und ein Excel-Klon (12.000 Commits, 1,6 Millionen Zeilen).

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren