Jakub Pachocki, der bei OpenAI die Entwicklung fortgeschrittener Modelle leitet, sieht in der Fähigkeit von KI-Modellen, eigenständig Wissen zu generieren, einen entscheidenden Schritt auf dem Weg zu einer KI mit großen Auswirkungen auf Wirtschaft und Forschung.
Pachocki sieht sogenannte Reasoning-Modelle auf einem klaren Kurs in Richtung eigenständiger Erkenntnisgewinnung. Diese Fähigkeit bezeichnet er als eine Form von "Reasoning" – auch wenn sie sich grundlegend vom menschlichen Denken unterscheide.
"Ich würde sagen, es ist eine Form von Reasoning, aber das bedeutet nicht, dass es das gleiche ist wie menschliches Reasoning", sagte Pachocki im Gespräch mit Nature.
Grundlage dieser Fähigkeiten sei eine zweistufige Lernarchitektur. Zunächst durchlaufen die Modelle ein unüberwachtes Pre-Training, bei dem sie große Datenmengen aufnehmen und daraus ein sogenanntes "Weltmodell" entwickeln. Dieses dient als interne Repräsentation der Welt, jedoch ohne bewusste zeitliche oder methodische Einordnung des Gelernten.
In einem zweiten Schritt wird dieses Modell durch Reinforcement Learning mit menschlichem Feedback in einen nützlichen Assistenten überführt. Diese Phase sei bei den neuen Reasoning-Modellen noch stärker gewichtet. OpenAI verwendet hier auch klassische Reinforcment-Learning-Methoden, die aber nur in Bereichen mit eindeutig richtigen oder falschen Ergebnissen gut greifen.
Pachocki stellt infrage, ob Pre-Training und Reinforcement Learning überhaupt noch getrennt gedacht werden sollten: "Reasoning-Modelle lernen nicht im luftleeren Raum zu denken, sie sind in einem Modell verwurzelt, das durch Pre-Training gelernt hat", sagt er. Vielmehr müsse man verstehen, wie beide Phasen zusammenwirken; das sei ein Fokus seiner aktuellen Arbeit, den auch sein Chef Sam Altman so ankündigte.
Ein kürzlich erschienenes Paper zeigt, dass das Reasoning-Training den Modellen keine neuen Fähigkeiten verleiht. Stattdessen optimiert es die Nutzung bereits vorhandener Kompetenzen – etwa durch eine strukturiertere oder effizientere Problemlösung in bekannten Aufgabentypen.
Autonome Forschung als nächstes Ziel
Pachockis Perspektive auf künstliche Allgemeinintelligenz (AGI) hat sich über die Jahre deutlich verschoben. Während seines Studiums habe er das Beherrschen hochkomplexer Spiele wie Go noch als entlegenen AGI-Meilenstein betrachtet – eine Leistung, die seiner damaligen Einschätzung nach Jahrzehnte entfernt lag.
Der Durchbruch durch AlphaGo im Jahr 2016 habe diese Annahme widerlegt und bei ihm ein Umdenken ausgelöst. Seither beobachtet er, dass auch andere Benchmarks wie der Turing-Test oder mathematische Problemlösungsaufgaben deutlich schneller bewältigt wurden als ursprünglich angenommen.
Der nächste entscheidende Schritt ist für ihn ökonomischer Natur: KI-Modelle, die wirtschaftlich verwertbare Ergebnisse produzieren und selbstständig forschen. "Das kommt meiner ursprünglichen emotionalen Vorstellung von KI am nächsten", sagt Pachocki.
Spätestens Ende des Jahrzehnts rechnet Pachocki mit "substanziellen Fortschritten" in der autonomen Forschung durch KI. Erste praktische Anwendungen erwartet er in diesem Jahr - etwa durch KI-Systeme, die "fast selbstständig" Software erstellen.
Microsoft und OpenAI sollen sich auch darauf geeinigt haben, AGI an wirtschaftlichen Kennzahlen zu messen. Konkret: an einem Return on Investment von 100 Milliarden US-Dollar.
OpenAI distanzierte sich zudem von der früheren Annahme, dass es sich bei der Realisierung von AGI um einen einmaligen Durchbruch handele, sondern dass sich die Entwicklung schrittweise vollziehe. Das passt zur primär ökonomischen Definition, die Pachocki beschreibt.