Kurz vor dem Release von GPT-5 zeichnet ein umfangreicher Leak den langen Weg von OpenAI zu einem neuen KI-Modell nach, das keine Erwartungen enttäuschen darf.
OpenAI steht kurz vor der Veröffentlichung von GPT-5, dem Nachfolger des bereits im März 2023 erschienenen GPT-4. Doch laut einem Bericht von The Information dürfte das neue Modell lediglich moderate Fortschritte bringen, statt neue Maßstäbe zu setzen.
Interne Tests zeigen zwar Verbesserungen bei Programmier- und Mathematikaufgaben sowie beim Befolgen komplexer Anweisungen, etwa für automatisierte Kundendienste. Dennoch bleibe der Leistungssprung deutlich hinter dem zurück, was der Wechsel von GPT-3 (2020) zu GPT-4 (2023) gebracht hatte.
GPT-5 generiere zudem ästhetischere und benutzerfreundlichere Applikationen und könne besser einschätzen, wann es mehr oder weniger Rechenleistung benötigt, berichten Personen mit Kenntnis der internen Modellbewertungen.
GPT-4.5 hätte GPT-5 werden sollen
Unter anderem Microsoft-Mitgründer Bill Gates (schon im Herbst 2023), der LLM-Kritiker Gary Marcus, OpenAIs früherer Chef-Wissenschaftler Ilya Sutskever oder Metas KI-Forscher Yann LeCun hatten diese Entwicklung bereits seit Längerem prognostiziert: Die Transformer-basierte LLM-Architektur gilt inzwischen als weitgehend ausgereizt.
Ein Beispiel: Ursprünglich war bei OpenAI ein internes LLM mit dem Codenamen "Orion" als direkter Nachfolger von GPT-4o geplant. Es erfüllte jedoch nicht die Erwartungen und wurde Anfang 2025 als GPT-4.5 veröffentlicht, ein Eingeständnis, dass OpenAI der Leistungssprung nicht ausreichte, um das Modell GPT-5 zu nennen. GPT-4.5 konnte sich am Markt kaum abheben, war zudem langsamer und teurer als sein Vorgänger bei minimalen Verbesserungen und verschwand schnell wieder in der Versenkung.
Ein zentrales Entwicklungsproblem laut The Information: Veränderungen im Pretraining wirkten bei kleineren Modellen, skalierten aber nicht mit zunehmender Modellgröße. Gleichzeitig ging OpenAI laut Bericht hochwertige Web-Trainingsdaten aus. Orion stagnierte, bevor es überhaupt GPT-5 heißen durfte.
Noch im Juni 2025 galt keines der in Entwicklung befindlichen Modelle bei OpenAI als leistungsfähig genug, um den Namen GPT-5 zu tragen, wie eine mit der Entwicklung vertraute Person gegenüber The Information sagte.
Reasoning-Modelle: Vielversprechend – aber schwer zu zähmen
Parallel dazu arbeitete OpenAI an sogenannten Reasoning-Modellen – auch als "Large Reasoning Models" (LRMs) bezeichnet – die bei höherem Rechenaufwand bessere Leistungen zeigen. Sie könnten entweder spezialisierte Werkzeuge für Aufgaben wie Mathematik, Websuche und Programmierung bleiben oder den Ausgangspunkt für eine neue Entwicklungsrichtung markieren. Offen sind hier Fragen zur Generalisierungsfähigkeit und dem Energieverbrauch.
OpenAIs Durchbruch bei Reasoning-Modellen kam Ende 2023 mit dem Modell Q*, das in der Lage war, bisher unbekannte Mathematikprobleme zu lösen. Daraus gingen die Modelle o1 und o3 hervor, die beide auf dem Basismodell GPT-4o aufbauten und in spezialisierten Anwendungen Fortschritte machten.
Während die Elternmodelle (oder Lehrermodell) beider Versionen (o1 und o3) mittels Reinforcement Learning (RL) trainiert wurden, erhielt das Elternmodell von o3 zusätzlich deutlich mehr Rechenleistung sowie Zugriff auf Web- und Codequellen. Bei der RL-Methode generierte das Modell selbstständig Antworten auf Expertenfragen und wurde anhand der Übereinstimmung mit menschlichen Lösungen weiter trainiert.
Im Chat-Einsatz verloren diese Modelle allerdings viele ihrer Fähigkeiten. Die Umwandlung in ein dialogfähiges Format führte zu Leistungsabfällen – das Modell "musste dümmer gemacht werden", wie eine beteiligte Person gegenüber The Information sagte, da die Kommunikation mit Menschen nicht ausreichend trainiert worden war. Das betraf auch die API-Version.
Der ARC-AGI-Benchmark bestätigte im April eine zentrale Schwäche der o3-Reihe: Die öffentlich verfügbare Version schnitt in dem anspruchsvollen Puzzle-Test deutlich schlechter ab als das interne Basismodell – ein Hinweis darauf, dass viele der ursprünglichen Reasoning-Fähigkeiten bei der Umwandlung in ein Chat-Format verloren gingen.
Ein besonders anschauliches Beispiel für die Spannungen zwischen leistungsfähigen Reasoning-Modellen und alltagstauglicher Kommunikation ist das Modell o3-pro: In Expertenbewertungen wurde es konstant höher eingestuft als o3, primär in Bereichen wie Wissenschaft, Programmierung und Business.
Im Alltag hingegen versagte es bei banalen Aufgaben. Eine einfache Begrüßung wie "Hi, I'm Sam Altman" führte zu minutenlanger Rechenzeit und Kosten von rund 80 US-Dollar für eine letztlich banale Antwort. Ein klarer Fall von Overthinking. GPT-5 dürfte versuchen, hier einen Mittelweg zu finden zwischen spezialisierten Denkprozessen und praxisnaher Kommunikation.
GPT-5 als Basis für neue Agentensysteme
Trotz technischer Rückschläge soll GPT-5 Fortschritte bei sogenannten "agentischen" Systemen ermöglichen, also bei Anwendungen, in denen ein KI-Modell mehrere Handlungsschritte weitgehend autonom und zuverlässig ausführt. Laut Bericht soll GPT-5 in der Lage sein, komplexe Vorgaben mit weniger menschlicher Kontrolle effizienter umzusetzen. Auch GPT-4.1 war bereits auf solche Einsatzszenarien ausgerichtet.
Zudem soll GPT-5 leistungsfähiger sein als sein Vorgänger, ohne deutlich mehr Rechenressourcen zu verbrauchen. Das neue Modell kann laut internen Tests besser einschätzen, welche Aufgaben mehr oder weniger Rechenleistung benötigen, was zu effizienteren Abläufen beitragen und zuvor beschriebene Overthinking-Szenarien begrenzen könnte.
OpenAI setzt zudem darauf, dass selbst inkrementelle Verbesserungen von GPT-5 ausreichen, um das Interesse von Kunden und Investoren aufrechtzuerhalten und zusätzliche Nachfrage zu erzeugen. Das Unternehmen wächst weiterhin schnell – trotz hoher Betriebskosten. Besonders im Bereich KI-gestützter Programmierung, wo derzeit Anthropic mit Claude-Modellen führend sein soll, will OpenAI mit GPT-5 verlorene Marktanteile zurückgewinnen.
Für weiteren Fortschritt setzt OpenAI zunehmend auf Reinforcement Learning, insbesondere auf einen "Universalverifizierer", der automatisch die Qualität von Modellantworten bewertet, sogar in subjektiven und damit schwer zu verifizierbaren Bereichen wie kreativem Schreiben.
Dieser Universalverifizierer kam auch bei dem OpenAI-Modell zum Einsatz, das kürzlich bei der internationalen Mathematikolympiade Gold holte. OpenAI-Forscher Jerry Tworek suggerierte, dass das zugrunde liegende RL-System als Fundament für eine allgemeine künstliche Intelligenz (AGI) dienen könne.