OpenAI-Bericht will zeigen, wie GPT-5 Forschern heute schon Stunden an Arbeit spart
OpenAI präsentiert mit "GPT‑5 Science Acceleration" eine Sammlung von Erfolgsgeschichten, in denen das eigene Modell bei Forschung hilft. Abseits des Fortschrittsnarrativs bietet das Papier vor allem eines: einen Einblick, wie Wissenschaftler:innen KI heute konkret einsetzen – und wo sie sich nicht auf sie verlassen.
Der Bericht "GPT‑5 Science Acceleration" liest sich wie eine Werkschau des eigenen Modells: Mathematiker:innen lassen sich bei Beweisen helfen, Physiker:innen bei Symmetrieanalysen, Immunolog:innen bei Hypothesen und Experimentplänen. Über eine Sammlung kurzer Fallstudien hinweg zeigen OpenAI und externe Koautor:innen, wie GPT‑5 Forschung unterstützen kann und wo das Modell danebenliegt.
Für Außenstehende sind viele der konkreten Resultate mathematisch oder physikalisch schwer zugänglich. Praktisch relevanter ist der Blick hinter die Kulissen: Wie sieht Zusammenarbeit mit einem Frontier‑Modell aus, wenn sie funktioniert?
Ein Werkstattbericht, keine "Move‑37"-Revolution
Noam Brown von OpenAI versucht, den Bericht auf X in einen größeren Kontext zu stellen. Die gängige Kritik, Gen‑KI produziere nur den "Durchschnitt des Internets", weist er zurück. Modelle wie GPT‑5 würden die gesamte Verteilungsbreite menschlicher Texte lernen, und verstärkendes Lernen (RL) könne sie über diese Verteilung hinausschieben.
Als Analogie nennt Brown AlphaGo: Das System lernte aus menschlichen Go‑Partien und fand dann per RL Züge wie den berühmten "Move 37", den menschliche Profis zunächst für einen Fehler hielten. Die reale Welt sei schwieriger als Go und die "gezackte Front" der KI‑Fähigkeiten habe die besten Menschen noch nicht übertroffen, schreibt Brown. Aber große Sprachmodelle würden bereits sinnvoll zur Forschung beitragen – und er erwarte, "dass wir bald einen Move 37 für die Wissenschaft sehen werden".
Der GPT‑5‑Bericht selbst bestätigt eher den ersten Teil dieser Aussage als den zweiten. Er zeigt zahlreiche Fälle, in denen das Modell nützlich ist, aber keinen einzigen, in dem GPT‑5 eine wissenschaftliche Revolution ausgelöst hätte. Der Bericht beschreibt Beiträge entsprechend auch als ‘modest in scope’ und betont Grenzen und erforderliche Expertise.
In fast allen Beispielen kommen die Probleme, die strategische Richtung und die Bewertung der Ergebnisse klar von Menschen. GPT‑5 liefert Material: Vorschläge, Beweisskizzen, numerische Experimente, Hypothesen. Die "Hauptidee" liegt bislang praktisch immer auf menschlicher Seite.
GPT-5 als Literatur-Scout
Einige wiederkehrende Rollen, in denen GPT‑5 nützlich war, zeichnen sich dabei besonders deutlich ab, etwa die des Literatur‑Scouts: Mathematische Resultate sind über Jahrzehnte oft unter wechselnden Begriffen vergraben. Für mehrere Erdős‑Probleme fanden die Autoren Sawhney und Sellke mittels GPT‑5 ältere Lösungen in Papern mit vagen Titeln, in 256‑seitigen Surveys oder in Randbemerkungen deutscher Arbeiten, die von gängigen Reviews übersehen worden waren.
Der Prompt ist dabei extrem simpel – Aufgabenstellung plus Bitte um Literaturrecherche – aber das Modell nutzt seine semantische Repräsentation besser als klassische Suchmaschinen. Dieses Ergebnis war vorher bereits bekannt und führt durch eine fragwürdige Kommunikation zu starker Kritik an OpenAI.
Eng damit verbunden ist der Einsatz als Beweis‑Assistent für "überschaubare" Teilprobleme. Mehrere Mathematiker:innen nutzen GPT‑5, um wohldefinierte, aber zeitaufwendige Subprobleme auszulagern: eine Ungleichung verfeinern, eine Kompaktheitsaussage präzisieren, ein einfacheres Lemma beweisen.
Timothy Gowers beschreibt, dass GPT‑5 ihm in Sekunden Beweise geliefert hat, für die er selbst wohl eine Stunde oder mehr nachdenken müsste – bei Problemen, deren generelle Lösbarkeit für ihn klar war.
GPT-5 als Mechanistik-Generator, Devils Advocate und Code-Generator
In der Biologie kann GPT‑5 als eine Art Mechanistik‑Generator dienen. In den Immunologie‑Fallstudien fragen die Forschenden explizit nach Mechanismen ("Wie könnte 2‑DG diesen Phänotyp erzeugen?") und nach Experimenten, die zwischen alternativen Erklärungen unterscheiden. GPT‑5 liefert laut dem Bericht plausible Ketten von Wirkungsschritten und schlägt gezielte Experimente vor.
Hier gilt allerdings: Ein Teil der relevanten Vorarbeiten war bereits als Preprint öffentlich und konntem im Training gelandet sein, was die Grenze zwischen reiner Synthese und echter "Neufindung" verwischt.
In einigen Beispielen dient GPT‑5 wiederrum dazu, eigene Ideen "abschießen" zu lassen. Forschende skizzieren beispielsweise einen Konstruktionsansatz für Graphen und GPT‑5 zeigt, warum der Ansatz scheitert. Nicht jede dieser Kritiken sitzt jedoch, teilweise argumentiert das Modell falsch und korrigiert sich erst auf Nachfrage. Aber auch das negativ verlaufene Ping‑Pong liefert laut dem Paper Einsichten.
Schließlich bewährt sich GPT‑5 als Code‑Generator und Simulationsaufsetzer. Physiker:innen und Ingenieur:innen nutzen laut dem Bericht GPT‑5, um schnell lauffähige, einfache PDE‑Solver, Optimierungsroutinen und Visualisierungen zu erzeugen. Das eigentliche "Design" – welche Gleichungen, welche Parameter, welche Metrik für Erfolg – kam dabei aus der Hand der Forschenden.
GPT‑5 übernahm den "Engineers‑Teil": Implementieren, Plotten, Variieren von Konfigurationen. Auch hier war viel Debugging durch Menschen nötig; das Modell tendierte laut dem Bericht dazu, numerische "Klebeband‑Lösungen" einzubauen, die zu schön aussahen, aber physikalisch wenig Sinn ergaben.
Wie Forschende GPT‑5 einsetzen
Über die Fächergrenzen hinweg wiederholen sich zudem bestimmte Nutzungsweisen von GPT‑5:
- Enge Aufgaben
GPT‑5 funktioniert am besten, wenn die Aufgabe eng gefasst ist: eine bekannte Ungleichung verbessern, eine konkrete PDE nach Symmetrien absuchen, das Spektrum eines bestimmten Gravitationswellen‑Problems analysieren, eine gegebene Abbildung interpretieren oder eine überschaubare Problemformulierung auf vorhandene Literatur abklopfen. Offene, unstrukturierte Bitten wie "Löse dieses große Problem" führen zuverlässig zu scheinbar plausiblen, aber inhaltlich fehlerhaften Antworten – das dokumentieren die Autor:innen selbst mehrfach. - KI-Gerüstbau
Immer wieder bauen Forschende "Leitplanken" um das Modell: Sie lassen GPT‑5 zunächst ein vereinfachtes Analogproblem lösen, bevor sie die schwierigere Variante stellen. In einem Fall scheiterte GPT‑5 einer schwierigen Gleichung zu Schwarzen Löchern, bis es vorher eine leichtere, ähnliche Aufgabe gelöst hatte – erst dann konnte es auch die komplizierte Aufgabe richtig bearbeiten.. - Prompten wie mit einem Postdoc
Die erfolgreichsten Prompts lesen sich nicht wie Google‑Anfragen, sondern wie Aufgaben an eine:n Doktorand:in: Kontext, präzise Frage, klare Erfolgskriterien, bitte inklusive Literatur, Fehlerabschätzungen und Folgeexperimenten. Immunologe Derya Unutmaz etwa übergab GPT‑5 Grafiken, die zeigen, wie viele Zellen bestimmte Merkmale haben zusammen mit einer Liste konkreter Arbeitsaufträge: Executive Summary, quantitative Dosisantworten, Mechanismen, Implikationen für Immuntherapie, Vorschlag eines Experimentplans. Das Modell lieferte entsprechend strukturierte Antworten und Hypothesen. - Iteratives Nachbohren
Wo GPT‑5 zu schnell eine Lösung findet, haken Forschende nach. In mehreren Beispielen kritisieren sie falsche oder unplausible Argumente und fordern alternative Begründungen oder stärkere Kontrollen ein. Oft fallen dann tatsächlich bessere, robustere Argumente ab – etwa, wenn ein zunächst skizzenhaftes geometrisches Beispiel zu einer präzisen Gegenkonstruktion ausgebaut wird. Ohne diese kritische Haltung wären manche "Lösungen" schlicht falsch. - Bewusste Beschränkung der Informationsquellen
In einigen Experimenten schalten die Autor:innen explizit die Websuche aus, um zu prüfen, was GPT‑5 aus rein "internem" Wissen und Schlussfolgern leisten kann. In anderen Fällen ist Websuche erwünscht, etwa bei der Erdős‑Datenbank.
Blinde Flecken
Trotz der beeindruckenden Beispiele offenbart der Bericht auch systematische Schwächen des Modells. Ein erstes Problem betrifft die Attribution und Neuheit von Ergebnissen: Als das Modell eine elegante untere Schranke für ein Codeproblem präsentierte, stellte sich später heraus, dass dieselbe Schranke bereits in einem drei Jahre alten Paper bewiesen worden war.
GPT‑5 hatte den Beweis offenbar intern rekonstruiert, aber die ursprüngliche Quelle nicht genannt. Erst nach gezielter Nachfrage lieferte es die Referenz. Wer solche Ausgaben unkritisch als "neue Ergebnisse" betrachtet, riskiert Fehlzuschreibungen.
In der Erdős‑Datenbank neigte GPT‑5 dagegen mitunter dazu, Teilresultate als fast hinreichend zu verkaufen, obwohl sie das Problem nur streifen. Hier waren Fachkenntnis und Nachlesen nötig, um zu erkennen, dass das Modell den Stand der Dinge beschönigt.
GPT‑5 lieferte zudem generell mehrfach Beweise, die bei genauer Betrachtung nicht tragen: fehlende Fallunterscheidungen, ungerechtfertigte Limitwechsel, falsch zitierte Sätze. Erst Hartnäckigkeit der Forschenden – "erklär mir diesen Schritt genauer" – bringt entweder eine Korrektur oder offenbart, dass der Ansatz nicht funktioniert.
Schließlich zeigt sich auch ein Selektionsbias nach Disziplin und Aufgabenart: Die Beispiele kommen überwiegend aus Bereichen, die formal gut beschrieben sind und über lange literarische Traditionen verfügen: reine Mathematik, theoretische Physik, algorithmische Probleme. Empirische Wissenschaften, in denen Messfehler, unklare Effekte und widersprüchliche Daten dominieren, sind mit den gezeigten Immunologie‑Beispiele im Vergleich noch unterrepräsentiert.
Jenseits von GPT-5 Pro
Ein letzter Punkt des Berichts deutet an, wohin die Reise technisch gehen könnte: OpenAI erwähnt "interne Modelle, die ein paar Stunden lang denken können", die in mindestens einem mathematischen Beispiel die optimale Lösung fanden, während GPT‑5 Pro mit knapp 20 Minuten Rechenzeit nur eine gute, aber nicht perfekte Verbesserung lieferte.
Laut dem Bericht gelang es diesen Langzeit‑Varianten, eine scharfe Schranke in der konvexen Optimierung "from scratch" herzuleiten – also ohne das vorbereitende Paper, das GPT‑5 Pro als Kontext erhielt. Technische Details oder eine Roadmap fehlen; das Paper bleibt bei der funktionalen Aussage, dass mehr Test‑Time‑Compute zu besseren Ergebnissen führt.
Vor dem Hintergrund von Noam Browns Verweis auf AlphaGos "Move 37" wirkt das wie ein vorsichtiger Fingerzeig: OpenAI experimentiert intern mit Systemen jenseits dessen, was heute als GPT‑5 Pro zugänglich ist.
Ob aus diesen Langzeit‑Modellen irgendwann tatsächlich so etwas wie ein "Move 37 der Wissenschaft" entsteht – einen unerwarteten, klar identifizierbaren Durchbruch, den Fachleute zunächst für einen Fehler halten – bleibt vorerst eine Behauptung über die Zukunft, keine Beobachtung aus den gezeigten Fallstudien.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.