Inhalt
summary Zusammenfassung

Kann Künstliche Intelligenz schon bald menschliche Softwareentwickler:innen ersetzen? Ein neuer Benchmark von OpenAI zeigt, dass KI-Modelle im Praxistest zwar Potenzial zeigen, aber noch weit davon entfernt sind, komplexe Softwareprojekte eigenständig zu bewältigen.

Anzeige

Im neuen Benchmark SWE-Lancer hat OpenAI 1.400 reale Aufträge der Freelancer-Plattform Upwork analysiert, die zusammen ein Auftragsvolumen von einer Million US-Dollar repräsentieren. Die KI-Modelle mussten sich in zwei Kategorien beweisen: als eigenständige Entwickler und im Projektmanagement.

In der ersten Kategorie ging es darum, Fehler zu beheben oder neue Funktionen zu implementieren. Das Spektrum der Aufgaben reichte von kleinen Bugfixes im Wert von 50 US-Dollar bis zu komplexen Features, die mit bis zu 32.000 US-Dollar vergütet wurden.

Ein konkretes Beispiel für einen kleineren Auftrag war die Korrektur eines doppelt ausgelösten API-Calls. Am anderen Ende der Skala stand etwa die Implementierung der In-App-Videowiedergabe. Diese musste für verschiedene Plattformen – Web, iOS, Android und Desktop – umgesetzt werden.

Anzeige
Anzeige

Ein weiterer Auftrag mit mittlerem Schwierigkeitsgrad und einer Dotierung von 1.000 US-Dollar bestand darin, einen Fehler zu beheben, der zu unterschiedlichen Avatarbildern auf der "Share Code"-Seite und der Profilseite führte.

Im Bereich Projektmanagement wurde die Fähigkeit der KI getestet, zwischen verschiedenen Lösungsvorschlägen menschlicher Freelancer:innen die beste Option auszuwählen. Ein Beispiel hierfür war die Aufgabe, den optimalen Vorschlag für die Implementierung einer Bild-Einfügefunktion in der iOS-App zu finden.

Infografik: 6 Software-Entwicklungskategorien mit Beispielen - Anwendungslogik, Server-Logik, UI/UX links; Bugfixes, Features, Zuverlässigkeit rechts.
Die sechs Kernbereiche der Softwareentwicklung zeigen typische Herausforderungen mit konkreten Beispielen aus der Praxis. Während sich die linken Kategorien auf technische Aspekte wie Anwendungslogik und Server-Funktionen konzentrieren, adressieren die rechten Kategorien qualitative Verbesserungen durch Fehlerbehebung und Funktionserweiterungen. | Bild: OpenAI

Die KI musste dabei Faktoren wie die Unterstützung verschiedener Clipboard-Formate, die Minimierung von Berechtigungsanfragen und die Übereinstimmung mit dem nativen iOS-Verhalten bewerten.

Um die Leistung der KI-Modelle unter realistischen Bedingungen zu bewerten, setzte OpenAI auf anspruchsvolle End-to-End-Tests. Diese wurden von erfahrenen Softwareentwickler:innen entwickelt und dreifach überprüft.

Im Gegensatz zu Unit-Tests, die nur isolierte Funktionen prüfen, simulieren End-to-End-Tests komplette Benutzerabläufe. So wurde unter anderem der Ablauf zum Testen des Avatar-Bugs mit Einloggen, Hochladen eines Profilbilds und Interaktion mit einem zweiten Account simuliert. Dadurch wird die Komplexität realer Softwareprojekte deutlich besser abgebildet.

Empfehlung

KI holt auf, liegt aber bisher nicht vorne

Die Ergebnisse des Benchmarks zeigen, dass KI-Modelle in der Softwareentwicklung zwar Fortschritte machen, aber Menschen bislang noch vorn liegen. Claude 3.5 Sonnet, das leistungsstärkste getestete Modell, löste 26,2 Prozent der Entwicklungs- und 44,9 Prozent der Management-Aufgaben erfolgreich.

Umgerechnet auf den potenziellen Verdienst bei Upwork hätte das bereits deutliche Auswirkungen: Claude 3.5 Sonnet hätte mit den Aufgaben des öffentlichen Datensatzes SWE-Lancer Diamond 208.050 US-Dollar von möglichen 500.800 US-Dollar verdient.

Für den gesamten Datensatz mit einem Auftragsvolumen von einer Million US-Dollar wären dies etwas mehr als 400.000 US-Dollar gewesen. KI könnte sich also zumindest im Upwork-Szenario einen guten Teil des Budgets sichern, wenn die Benchmark-Ergebnisse in die Praxis umgesetzt werden können.

Balkendiagramm: KI-Modellvergleich zeigt geringere Leistungsunterschiede bei Managementaufgaben als bei Software-Engineering.
Bemerkenswert am OpenAI-Benchmark ist, dass das reine LLM Anthropic Sonnet 3.5 in allen Bereichen vor dem Code-optimierten "Reasoning"-Modell o1 von OpenAI liegt. Das neuere Modell o3 war nicht Teil des Benchmarks, es soll als Bestandteil von GPT-5 in den nächsten Monaten veröffentlicht werden. | Bild: OpenAI

Eine detaillierte Analyse der Ergebnisse offenbarte eine typische Schwachstelle der KI: Die Modelle konnten zwar oft die fehlerhafte Stelle im Code lokalisieren, scheiterten aber häufig daran, die zugrundeliegende Ursache zu verstehen und eine umfassende Lösung zu entwickeln.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Um die Forschung im Bereich der automatisierten Softwareentwicklung zu fördern, hat OpenAI den Datensatz SWE-Lancer Diamond inklusive Docker-Image als Open-Source auf GitHub veröffentlicht.

Das ist auch notwendig, um weitere Modelle – vor allem solche, die auf Coding-Aufgaben spezialisiert sind – in Relation zu den Ergebnissen der drei getesteten Modelle zu stellen. Bemerkenswert ist auch, dass o1 trotz seines höheren Leistungsbedarfs bei der Inferenz keinen Vorteil gegenüber dem etwas älteren traditionellen Sprachmodell Claude 3.5 Sonnet aufweist.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat mit SWE-Lancer einen neuen Benchmark entwickelt, der die Fähigkeiten von KI-Modellen in der Softwareentwicklung anhand von 1.400 realen Upwork-Aufträgen im Wert von einer Million US-Dollar testet.
  • Das leistungsstärkste getestete Modell Claude 3.5 Sonnet löste 26,2 Prozent der Entwicklungs- und 44,9 Prozent der Management-Aufgaben erfolgreich. Damit hätte es bei einem Gesamtvolumen von einer Million US-Dollar etwas über 400.000 US-Dollar verdient.
  • Die KI-Modelle konnten oft die fehlerhafte Stelle im Code lokalisieren, scheiterten aber häufig daran, die Ursache zu verstehen und eine umfassende Lösung zu entwickeln. Um die Forschung voranzutreiben, hat OpenAI den Datensatz SWE-Lancer Diamond als Open-Source veröffentlicht.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!