Der KI-Kritiker Gary Marcus reagiert in einem Blogbeitrag mit scharfer Kritik auf die Einführung von GPT‑5. Er attestiert OpenAI einen überhitzten Hype und verweist auf ähnliche Probleme in der gesamten Branche.
Der Forscher und Publizist Gary Marcus, seit Jahren eine der lautesten Stimmen gegen das reine „Hochskalieren“ großer Sprachmodelle, hat die Vorstellung von OpenAIs neuem Flaggschiff GPT‑5 zum Anlass genommen, seine Kernkritik öffentlich zu bekräftigen. In einem ausführlichen Beitrag auf seiner Substack‑Seite beschreibt Marcus den Release als „überfällig, überhyped und unterwältigend“. Statt eines großen technologischen Durchbruchs sehe er nur „die neueste inkrementelle Verbesserung – und die fühlt sich gehetzt an“.
Während OpenAI CEO Altman GPT‑5 als Gespräch mit „einem legitimen Experten auf PhD‑Niveau in jedem Fach“ anpries, entgegnet Marcus: „In Wirklichkeit ist GPT‑5 kaum besser als das, was letzten Monat der letzte heiße Scheiß war. In manchen Benchmarks schneidet es sogar schlechter ab.“
Zu den unmittelbar nach der Veröffentlichung bekannt gewordenen Problemen sagt er: „Ein System, das es eine Woche lang schafft, ohne dass die Community eine Menge lächerlicher Fehler und Halluzinationen findet, würde mich beeindrucken.“ Stattdessen seien innerhalb von Stunden die üblichen Fehler aufgetaucht. Beispielhaft nennt er fehlerhafte physikalische Erklärungen im Release-Live-Stream, falsche Lösungen bei einfachen Schachaufgaben und Missverständnisse in der Bildanalyse.
Vom Einzelfall zum Branchenproblem
Zentral in Marcus’ Text ist auch der Verweis auf eine aktuelle Untersuchung der Arizona State University, die seine Kernkritik untermauern soll: Das sogenannte „Chain of Thought“-Schlussfolgern sei, so das Paper, „eine fragile Illusion, die verschwindet, sobald es über den Trainingsbereich hinaus belastet wird“. Das Lesen der Zusammenfassung habe bei ihm, so Marcus, praktisch ein Déjà-vu ausgelöst. Er verweist darauf, dass er bereits 1998 experimentell ein ähnliches Problem bei damaligen neuronalen Netzen nachgewiesen habe. Die von ihm damals identifizierte Achillesferse sei immer noch vorhanden.
Aus seiner Sicht ist dieses „distribution shift“-Problem der Grund dafür, dass auch andere große Modelle von Grok bis Gemini bei komplexeren Transferaufgaben scheitern. „Es ist kein Zufall, dass alle diese Systeme in denselben Situationen ins Straucheln geraten – es ist ein prinzipielles Versagen“, schreibt er.
Marcus nutzt den Beitrag außerdem, um den allgemeinen KI‑Diskurs ins Visier zu nehmen: Versprechungen zu AGI, selektive Demovideos, mangelnde Transparenz zu Trainingsdaten – und eine Industrie, die sich nach seiner Darstellung zu sehr im Marketing statt in echter Forschung verliere. „Wir wurden jahrelang mit Bullshit gefüttert“.
Marcus plädiert als Lösung erneut für neurosymbolische Ansätze mit expliziten Weltmodellen. Für ihn markiert der GPT‑5‑Start keinen Fortschritt in Richtung AGI, sondern einen Punkt, an dem selbst Tech‑Enthusiasten beginnen könnten, an der Skalierungs-Hypothese zu zweifeln.