Zu Zeiten von GPT-4 galt: mehr Parameter, mehr Leistung. Diese Annahme ist zwar auch heute nicht falsch, dennoch ist die Modellgröße längst nicht mehr der alleinig ausschlaggebende Faktor.
Die neueste Generation von KI-Sprachmodellen kommt mit deutlich weniger Parametern aus als ihre Vorgänger. Nach Einschätzung einer aktuellen Analyse von EpochAI verfügt GPT-4o über etwa 200 Milliarden Parameter, während Claude 3.5 Sonnet auf etwa 400 Milliarden Parameter kommt. Zum Vergleich: Das ursprüngliche GPT-4 soll rund 1,8 Billionen Parameter haben.
Da die Hersteller geschlossener Modelle die Parameterzahl nicht mehr öffentlich machen, basieren die Einschätzungen laut EpochAI auf der Textgenerierungsgeschwindigkeit und den Nutzungspreisen. GPT-4o generiert demnach 100 bis 150 Token pro Sekunde und kostet 10 Dollar pro Million Token - deutlich günstiger und schneller als das ursprüngliche GPT-4.
Vier Gründe für den Trend zu kleineren Modellen
Die Analyse nennt vier Hauptgründe für diese Entwicklung: Erstens zwang die unerwartet hohe Nachfrage nach KI-Diensten die Anbieter zu effizienteren Modellen. Zweitens ermöglicht die "Destillation", bei der große Modelle kleinere trainieren, eine Verkleinerung bei gleichbleibender Leistung.
Drittens führte laut EpochAI der Wechsel zu den Chinchilla-Skalierungsgesetzen dazu, dass Modelle mit weniger Parametern auf mehr Daten trainiert werden. Auch das Test-Time Compute Scaling trägt zu effizienteren Modellen bei.
Viertens können auch kleinere Modelle dank verbesserter "In-Context-Reasoning"-Methoden auf Basis synthetischer Daten komplexe Aufgaben lösen.
Altman sah das Ende der Gigantomanie voraus
OpenAI-CEO Sam Altman hatte diese Entwicklung bereits kurz nach der Veröffentlichung von GPT-4 im April 2023 angedeutet. Er verglich den Wettlauf um mehr Parameter mit dem historischen Wettlauf um höhere Prozessortaktraten - eine Entwicklung, die sich als Sackgasse erwies. GPT-4 war das erste OpenAI-Modell, bei dem die Firma die Modellgröße nicht mehr kommunizierte.
Die nächste Generation von Sprachmodellen, wie GPT-5 und Claude 4, wird laut EpochAI jedoch wahrscheinlich die Größe des ursprünglichen GPT-4 erreichen oder leicht übertreffen.
Modelle im Bereich von 1 bis 10 Billionen Parametern könnten durch Test-Time Compute Scaling, also mehr Rechenzeit für den Antwortprozess, besser abschneiden und wirtschaftlicher sein als noch größere Modelle mit etwa 100 Billionen Parametern, selbst wenn diese technisch möglich wären.
Danach erwarten die Analysten jedoch eine Verlangsamung des Wachstums: In den nächsten drei Jahren sollen die Modellgrößen um weniger als den Faktor 10 zunehmen, was ein langsameres Wachstum wäre als der Sprung von GPT-3 zu GPT-4.
Ein Hindernis bei der Weiterentwicklung von KI ist laut Ex-OpenAI-Chefwissenschaftler Ilya Sutskever der Mangel an Trainingsdaten. Auch OpenAI-CEO Sam Altman sagte im Juni, dass man zwar ausreichend Daten für die nächste KI-Generation hat, dass man künftig jedoch mehr hochwertige Daten benötige und KI effizienter aus diesen Daten lernen müsse.