Cursor-Experiment verschiebt die Grenzen autonomer KI-Entwicklung
Kurz & Knapp
- Das KI-Unternehmen Cursor hat mit hunderten autonom arbeitenden KI-Agenten in knapp einer Woche einen funktionierenden Webbrowser mit eigener Rendering-Engine entwickelt.
- Der Erfolg gelang durch klare Rollentrennung: Planer erstellen Aufgaben, Worker führen sie aus, ein Judge Agent entscheidet über den Projektabschluss. Ein erster Ansatz mit gleichberechtigten Agenten war gescheitert.
- Parallel laufen weitere Großprojekte wie ein Windows-7-Emulator mit 1,2 Millionen Zeilen Code und ein Excel-Klon.
Einen Webbrowser von Grund auf neu zu entwickeln gilt als eines der komplexesten Softwareprojekte überhaupt. Cursor hat hunderte autonom arbeitende KI-Agenten auf genau diese Aufgabe angesetzt und nach knapp einer Woche einen lauffähigen Browser mit eigener Rendering-Engine vorgelegt.
„Ich muss zugeben, ich bin sehr überrascht, dass etwas so Leistungsfähiges so schnell entstanden ist", schreibt Simon Willison, britischer Programmierer und Mitschöpfer des Django-Webframeworks. Willison ist zudem ein einflussreicher, unabhängiger Blogger mit KI-Fokus und prägte 2022 den Begriff „Prompt Injection" für eine kritische Sicherheitslücke bei LLMs (nachdem zuvor Jonathan Cefalu das Problem als "command injection" an OpenAI meldete). Seine Einschätzungen zur KI-gestützten Softwareentwicklung werden in der Branche aufmerksam verfolgt.
Noch Anfang Januar hatte Willison prognostiziert, dass ein KI-gestützter Webbrowser frühestens 2029 realistisch sei. Nun korrigiert er sich selbst: „Ich lag möglicherweise drei Jahre daneben." Der Browser rendert Webseiten erkennbar korrekt, wenn auch mit sichtbaren Fehlern, die zeigen, dass hier keine bestehende Engine verwendet wird. Aber das entspreche in etwa der Ergebnisqualität, die ihm vorgeschwebt habe.
Flache Hierarchien scheiterten
Der Weg zum funktionierenden System war nicht geradlinig. Cursors erster Ansatz – Agenten mit gleichem Status, die sich über eine gemeinsame Datei koordinieren – scheiterte spektakulär. Das Problem: Wenn ein Agent eine Aufgabe übernehmen wollte, musste er sie erst „sperren", damit kein anderer Agent dieselbe Arbeit beginnt. Doch die Agenten hielten diese Locks zu lange oder vergaßen, sie wieder freizugeben. Das Ergebnis: 20 Agenten hatten nur den effektiven Durchsatz von zwei oder drei, weil die meiste Zeit mit Warten verbracht wurde.
Ohne klare Hierarchie zeigten sich die Agenten zudem risikoscheu. „Sie vermieden schwierige Aufgaben und machten stattdessen kleine, sichere Änderungen. Kein Agent übernahm Verantwortung für harte Probleme oder End-to-End-Implementierungen." Die Arbeit drehte sich im Kreis, ohne echten Fortschritt.
Planer, Worker und ein Richter
Als Lösung schlägt Cursor eine klare Rollentrennung vor. Planer erkunden kontinuierlich die Codebase und erstellen Aufgaben. Sie können dabei Sub-Planer für spezifische Bereiche spawnen, etwa einen Sub-Planer nur für das CSS-Rendering oder einen für die JavaScript-Engine. So wird die Planung selbst parallel und rekursiv.
Worker hingegen kümmern sich nicht ums große Ganze. Sie nehmen sich eine Aufgabe, arbeiten sie ab, pushen ihre Änderungen. Am Ende jedes Zyklus entscheidet ein Judge Agent, ob das Projekt abgeschlossen ist oder eine weitere Iteration starten soll.
Prompt Engineering bleibt weiter wichtig
„Viele unserer Verbesserungen kamen dadurch, dass wir Komplexität entfernt haben, nicht hinzugefügt", schreibt Wilson Lin von Cursor. Eine eigens eingeführte Integrator-Rolle für Qualitätskontrolle und Konfliktlösung etwa schuf mehr Engpässe als sie löste und die Worker konnten Konflikte selbst besser handhaben.
Die Modellwahl erwies sich ebenfalls als entscheidend für lange autonome Arbeit. GPT-5.2 sei deutlich besser darin, Anweisungen zu befolgen, den Fokus zu halten und Drift zu vermeiden. Opus 4.5 hingegen neige dazu, früher aufzuhören und Abkürzungen zu nehmen – es gibt schneller die Kontrolle zurück, statt eine Aufgabe vollständig abzuschließen.
Verschiedene Modelle für verschiedene Rollen funktionierten daher am besten. GPT-5.2 sei ein besserer Planer als GPT-5.1-Codex obwohl letzteres speziell für Coding trainiert wurde. Cursor setzt nun für jede Rolle das jeweils am besten geeignete Modell ein. Doch das alleine reicht nicht: „Ein überraschend großer Teil des Systemverhaltens hängt davon ab, wie wir die Agenten prompten. Das Harness und die Modelle sind wichtig, aber die Prompts sind wichtiger."
Weitere laufende Projekte
Der Browser ist nicht das einzige Experiment. Cursor ließ Agenten auch eine Solid-zu-React-Migration in der eigenen Codebase durchführen – eine massive Umstellung des Frontend-Frameworks. Das dauerte über drei Wochen und umfasste +266.000/-193.000 Zeilen Code. Das Ergebnis bestand bereits die CI-Tests, brauche aber noch ein umfassendes menschliches Review. Ein weiterer Agent habe Video-Rendering durch eine effiziente Rust-Implementierung beschleunigt, dieser Code soll bald in Produktion gehen.
Weitere Projekte laufen noch: ein Java Language Server Protocol (7.400 Commits, 550.000 Zeilen Code), ein Windows-7-Emulator (14.600 Commits, 1,2 Millionen Zeilen) und ein Excel-Klon (12.000 Commits, 1,6 Millionen Zeilen).
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren