Inhalt
summary Zusammenfassung

Mit PaperBench hat OpenAI einen neuen Maßstab vorgestellt, um zu testen, wie gut KI-Systeme wissenschaftliche Arbeiten selbstständig reproduzieren können. Die ersten Ergebnisse zeigen noch deutliche Grenzen der aktuellen Modelle.

Anzeige

Dabei mussten die KI-Agenten dabei 20 ausgewählte Paper der ICML 2024, einer renommierten Konferenz für Machine Learning, von Grund auf nachvollziehen - von der Implementierung der Methoden bis zur erfolgreichen Reproduktion der Ergebnisse.

Die ausgewählten Paper decken zwölf verschiedene Forschungsgebiete ab, darunter Deep Reinforcement Learning, Robustheit und probabilistische Methoden. Für die objektive Bewertung entwickelte das Team eine detaillierte Rubrik mit mehr als 8.300 einzeln bewertbaren Kriterien. Diese wurde in Zusammenarbeit mit den Original-Autor:innen der Paper erstellt, um den Benchmark so genau und realitätsnah wie möglich zu gestalten.

Strenge Regeln für faire Bewertung

Die KI-Agenten dürfen das Internet nutzen, aber keine Ressourcen wie den Original-Code der Autor:innen verwenden. Sie müssen einen reproduzierbaren Code-Korpus erstellen und ein Skript namens "reproduce.sh" bereitstellen, das alle Experimente automatisch ausführt und die Ergebnisse reproduziert. In der Standardversion des Benchmarks haben die Forschenden ein Zeitlimit von zwölf Stunden gestellt.

Anzeige
Anzeige
Diagramm: Übersicht über PaperBench KI-Forschungsreplikations-Benchmark mit Eingaben, Agent-Einreichung, Reproduktions-Ausführung und KI-Bewertung.
Die Agenten erhalten einen Fachartikel und ein Bewertungsraster als Eingabe und müssen eigenständig einen Programmcode erstellen, der die Ergebnisse reproduziert. Ein KI-basierter Bewerter überprüft dann, ob die Einreichung den Anforderungen entspricht. | Bild: OpenAI

Um den enormen Bewertungsaufwand zu bewältigen - menschliche Experten benötigen laut OpenAI mehrere Dutzend Stunden pro Paper - entwickelte das Team einen KI-basierten Richter. Dieser erreicht mit dem Modell o3-mini eine Genauigkeit von 83 Prozent im Vergleich zu menschlichen Bewertern und kostet dabei nur etwa 66 Dollar pro Paper statt mehrerer tausend Dollar für menschliche Experten. o1 wäre noch einen Prozentpunkt besser gewesen, kostet aber ca. 830 Dollar pro Paper.

KI-Systeme zeigen Schwächen bei komplexen Aufgaben

Die ersten Evaluierungen offenbaren noch deutliche Grenzen: Das beste getestete System, Claude 3.5 Sonnet von Anthropic, erreichte eine durchschnittliche Replikationsrate von 21 Prozent. OpenAIs erstes Reasoningmodell o1 kam mit einem verbesserten Agenten-Framework auf 24,4 Prozent, während das neuere, aber kleinere o3-mini auf 8,5 Prozent kam. Deutlich schwächer schnitten GPT-4o mit 4,1 Prozent, DeepSeek-R1 mit 6 Prozent und Googles Gemini 2.0 Flash mit 3,2 Prozent ab.

Tabelle mit Modellnamen in der linken Spalte und numerischen Replikationsscores in der rechten Spalte.
Reasoning-Fähigkeiten scheinen bei PaperBench nicht zu helfen, denn Sonnet 3.5 ohne Reasoning steht an erster Stelle. Das neuere 3.7 mit Rasoning wurde nicht getestet. | Bild: OpenAI

Zusätzlich entwickelten sie eine verbesserte Version ihres Agenten-Frameworks namens IterativeAgent, das die KI-Modelle zwingt, die volle verfügbare Zeit zu nutzen und Aufgaben schrittweise anzugehen. Mit diesem Framework verbesserte sich die Leistung von OpenAIs o1 von 13,2 auf 24,4 Prozent und die von o3-mini von 2,6 auf 8,5 Prozent.

Claude 3.5 Sonnet hingegen schnitt mit dem neuen Framework schlechter ab und fiel von 21 auf 16,1 Prozent zurück. In einem erweiterten Test mit 36 statt 12 Stunden Laufzeit erreichte o1 sogar 26 Prozent - was laut OpenAI die hohe Sensitivität der Modelle gegenüber unterschiedlichen Prompting-Strategien und Zeitlimits zeigt. Allerdings steigen bei derart langen "Denkzeiten" auch die Rechenkosten, was wiederum die Wirtschaftlichkeit des Systems in Frage stellen könnte.

Tabelle mit Modellnamen in der linken Spalte und numerischen Replikationsscores in der rechten Spalte.
Mit einem anderen Agenten-Setup konnten OpenAIs Reasoning-Modelle sogar Claude 3.5 Sonnet schlagen. | Bild: OpenAI

Zum Vergleich rekrutierte OpenAI acht Doktoranden der Informatik von renommierten Universitäten wie Berkeley, Cambridge und Cornell. Diese schafften nach 48 Stunden Arbeit etwa 41,4 Prozent der Replikationen.

Empfehlung

Menschen und Maschinen ergänzen sich

Besonders aufschlussreich ist laut OpenAI der unterschiedliche Arbeitsverlauf: KI-Systeme schreiben in der ersten Stunde rasch viel Code, erreichen dann aber ein Plateau. Sie scheitern daran, ihre Arbeit strategisch zu planen und zu verbessern. Menschen benötigen anfangs länger zum Einarbeiten und Verstehen der Papers, verbessern sich dann aber kontinuierlich.

Die Forscher beobachteten auch, dass die meisten KI-Modelle ihre Arbeit vorzeitig beendeten, weil sie fälschlicherweise glaubten, fertig zu sein oder unlösbare Probleme gefunden zu haben. Nur Claude 3.5 Sonnet nutzte die verfügbare Zeit konsequent aus.

Der Benchmark steht Open Source auf GitHub zur Verfügung. Nach Angaben von OpenAI kann PaperBench als Messinstrument für die zunehmende Autonomie von KI-Systemen in der Forschung dienen. Das sei besonders wichtig für Sicherheitsaspekte: Wenn KI-Systeme eigenständig forschen können, müsse ihre Entwicklung besonders sorgfältig überwacht werden.

Für Organisationen mit begrenztem Budget bietet OpenAI auch eine vereinfachte Version namens PaperBench Code-Dev an. Diese konzentriert sich nur auf die Code-Entwicklung ohne Ausführung, reduziert die Bewertungskosten um 85 Prozent und ermöglicht eine erste Einschätzung der KI-Fähigkeiten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat mit PaperBench ein Testverfahren vorgestellt, bei dem KI-Systeme wissenschaftliche Arbeiten selbstständig nachbauen müssen.
  • Ein KI-basierter Richter bewertet die Ergebnisse mit 83 Prozent Genauigkeit im Vergleich zu menschlichen Expert:innen und kostet dabei nur 66 Dollar pro Paper statt mehrerer tausend Dollar für menschliche Bewertungen.
  • Die ersten Tests zeigen klare Grenzen: Das beste KI-System, Claude 3.5 Sonnet, erreichte eine Replikationsrate von 21 Prozent, während menschliche Doktorand:innen nach 48 Stunden Arbeit auf 41,4 Prozent kamen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!