Inhalt
summary Zusammenfassung

Mit GDPval führt OpenAI einen Benchmark für reale Wissensarbeit ein: 1320 Aufgaben aus 44 Berufen, bewertet von Branchenprofis.

Anzeige

Die erste Version deckt 44 Berufe in neun Industrien ab, die jeweils mehr als fünf Prozent zum US-BIP beitragen. Innerhalb dieser Industrien wählte OpenAI jene Berufe mit den höchsten Lohn- und Vergütungsbeiträgen aus und prüfte mithilfe der Berufedatenbank O*NET, ob sie überwiegend Wissensarbeit sind (Schwellenwert: mindestens 60 Prozent nicht-physische Tasks). Grundlage für die Auswahl sind Daten des US-Bundesamts für Arbeitsstatistik (Mai 2024), so OpenAI.

Die Aufgaben stammen aus Bereichen wie Technik, Pflege, Recht, Softwareentwicklung oder Journalismus. Entwickelt wurden sie von Berufsexperten mit durchschnittlich 14 Jahren Erfahrung. Alle Aufgaben basieren auf realen Arbeitsergebnissen wie juristischen Schriftsätzen, Pflegeplänen oder technischen Präsentationen.

Aufgaben mit realen Anforderungen

Im Gegensatz zu klassischen KI-Benchmarks bestehen GDPval-Aufgaben nicht nur aus Text-Prompts, sondern beinhalten zusätzliche Materialien und komplexe Ergebnisformate. Ein Beispiel: Ein Maschinenbauingenieur soll einen Prüfstand für ein Kabelspulsystem entwerfen, inklusive 3D-Modell und PowerPoint-Präsentation, alles auf Basis technischer Spezifikationen.

Anzeige
Anzeige
Beispielaufgabe aus der Evaluation mit Prompt. | Bild: OpenAI

Die Bewertung erfolgt in Blindtests durch Branchenexpertinnen und -experten, die KI-Ergebnisse direkt mit den menschlichen Referenzlösungen vergleichen und als "besser", "gleich gut" oder "schlechter" einordnen.

Zusätzlich wurde ein KI-gestützter Bewertungsassistent entwickelt, der menschliche Bewertungen simulieren soll, aber derzeit noch experimentellen Charakter hat. Jede Aufgabe wurde laut Paper im Schnitt fünfmal überprüft (Peer-Checks, zusätzliche Fachreviews, modellgestützte Validierung).

Frontier-Modelle nähern sich Expertenniveau

In ersten Tests schnitten aktuelle Spitzenmodelle wie GPT-5 und Claude Opus 4.1 überraschend gut ab: Bei rund der Hälfte der 220 Aufgaben im veröffentlichten Gold-Set bewerteten Experten die KI-Ergebnisse als gleichwertig oder besser als die menschlichen.

Im Vergleich zu GPT-4o, das im Frühjahr 2024 erschien, hat sich die Leistung von GPT-5 je nach Metrik mehr als verdoppelt oder verdreifacht. Claude Opus 4.1 liegt noch weiter vorn und generierte bei knapp der Hälfte der Aufgaben Ergebnisse, die als genauso gut oder besser als die von Menschen bewertet wurden. Das Claude-Modell überzeugte laut OpenAI vorwiegend bei Ästhetik und Formatierung, GPT-5 bei Fachkenntnis und Genauigkeit.

Laut OpenAI erreichen die aktuellsten KI-Modelle fast Expertenniveau in verschiedenen Berufen. | Bild: OpenAI

In Bezug auf Effizienz zeigen sich laut OpenAI deutliche Vorteile: Die Modelle erledigten Aufgaben rund 100-mal schneller und 100-mal günstiger als menschliche Experten, wenn man reine Inferenzzeit und API-Kosten betrachtet. Die KI-Firma erwartet, dass es Zeit und Kosten spart, wenn Modelle Aufgaben zunächst übernehmen, bevor Menschen sie bearbeiten; in der Praxis bleiben menschliche Aufsicht, Iteration und Integration nötig.

Empfehlung

Noch keine echte Arbeitsplatzsimulation

Die aktuelle Version von GDPval beschränkt sich auf sogenannte Einzelversuch-Aufgaben ("One Shot"): Modelle bearbeiten jede Aufgabe nur einmal, ohne Rückmeldungen, Kontextaufbau oder Iterationen. Auch mit realer Ambiguität – etwa unklaren Anforderungen oder Rücksprachen mit Kolleginnen und Kunden – müssen sie sich nicht auseinandersetzen.

Der Benchmark testet damit lediglich die Bearbeitung einzelner, isolierter Arbeitsschritte am Computer. Doch Berufe bestehen aus mehr als nur solchen Teilaufgaben. Auch OpenAI betont, dass aktuelle KI-Modelle keine vollständigen Jobs ersetzen, sondern vor allem bei klar strukturierten, wiederholbaren Tätigkeiten unterstützen können. Hinzu kommt, dass der Testdatensatz mit nur 30 Aufgaben pro der 44 untersuchten Berufe relativ schmal ausfällt. Weitere Details finden sich im Paper.

Langfristig soll GDPval dabei helfen, den wirtschaftlichen Nutzen von KI-Modellen systematisch zu erfassen und die Auswirkungen auf den Arbeitsmarkt besser zu verstehen. OpenAI plant, künftige Versionen interaktiver und realitätsnäher zu gestalten. Aufgaben sollen etwa mit unklarer Ausgangslage oder Feedbackschleifen integriert werden. Wer Aufgaben beisteuern oder an der Bewertung mitwirken möchte, kann sich hier oder als OpenAI-Kunde hier registrieren.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat mit GDPval einen Benchmark vorgestellt, der reale Wissensarbeit abbildet: 1320 Aufgaben aus 44 Berufen wurden von erfahrenen Branchenprofis entwickelt und bewertet, wobei neben Text auch komplexe Formate wie 3D-Modelle und Präsentationen gefordert sind.
  • In ersten Tests schnitten GPT-5 und Claude Opus 4.1 bei etwa der Hälfte der Aufgaben mindestens so gut ab wie menschliche Experten; GPT-5 überzeugte primär bei Fachwissen und Genauigkeit, während Claude bei Ästhetik und Formatierung punktete.
  • Die Modelle bearbeiten Aufgaben zudem rund 100-mal schneller und günstiger als Menschen – allerdings ist weiterhin menschliche Kontrolle nötig. Außerdem: GDPval misst aktuell nur einzelne Aufgaben ohne iterative Bearbeitung oder Alltagsambiguität.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!