Inhalt
summary Zusammenfassung

Zu Zeiten von GPT-4 galt: mehr Parameter, mehr Leistung. Diese Annahme ist zwar auch heute nicht falsch, dennoch ist die Modellgröße längst nicht mehr der alleinig ausschlaggebende Faktor.

Anzeige

Die neueste Generation von KI-Sprachmodellen kommt mit deutlich weniger Parametern aus als ihre Vorgänger. Nach Einschätzung einer aktuellen Analyse von EpochAI verfügt GPT-4o über etwa 200 Milliarden Parameter, während Claude 3.5 Sonnet auf etwa 400 Milliarden Parameter kommt. Zum Vergleich: Das ursprüngliche GPT-4 soll rund 1,8 Billionen Parameter haben.

Da die Hersteller geschlossener Modelle die Parameterzahl nicht mehr öffentlich machen, basieren die Einschätzungen laut EpochAI auf der Textgenerierungsgeschwindigkeit und den Nutzungspreisen. GPT-4o generiert demnach 100 bis 150 Token pro Sekunde und kostet 10 Dollar pro Million Token - deutlich günstiger und schneller als das ursprüngliche GPT-4.

Liniendiagramm: Kostenvergleich verschiedener GPT-4-Modellgrößen, zeigt exponentiellen Kostenanstieg bei steigender Tokengeschwindigkeit.
Die Kosten pro Million generierter Tokens steigen exponentiell mit der Modellgröße. Auf dieser Basis schätzten die Analysten die Größe aktueller KI-Modelle. | Bild: Epoch AI

Vier Gründe für den Trend zu kleineren Modellen

Die Analyse nennt vier Hauptgründe für diese Entwicklung: Erstens zwang die unerwartet hohe Nachfrage nach KI-Diensten die Anbieter zu effizienteren Modellen. Zweitens ermöglicht die "Destillation", bei der große Modelle kleinere trainieren, eine Verkleinerung bei gleichbleibender Leistung.

Anzeige
Anzeige

Drittens führte laut EpochAI der Wechsel zu den Chinchilla-Skalierungsgesetzen dazu, dass Modelle mit weniger Parametern auf mehr Daten trainiert werden. Auch das Test-Time Compute Scaling trägt zu effizienteren Modellen bei.

Viertens können auch kleinere Modelle dank verbesserter "In-Context-Reasoning"-Methoden auf Basis synthetischer Daten komplexe Aufgaben lösen.

Altman sah das Ende der Gigantomanie voraus

OpenAI-CEO Sam Altman hatte diese Entwicklung bereits kurz nach der Veröffentlichung von GPT-4 im April 2023 angedeutet. Er verglich den Wettlauf um mehr Parameter mit dem historischen Wettlauf um höhere Prozessortaktraten - eine Entwicklung, die sich als Sackgasse erwies. GPT-4 war das erste OpenAI-Modell, bei dem die Firma die Modellgröße nicht mehr kommunizierte.

Die nächste Generation von Sprachmodellen, wie GPT-5 und Claude 4, wird laut EpochAI jedoch wahrscheinlich die Größe des ursprünglichen GPT-4 erreichen oder leicht übertreffen.

Modelle im Bereich von 1 bis 10 Billionen Parametern könnten durch Test-Time Compute Scaling, also mehr Rechenzeit für den Antwortprozess, besser abschneiden und wirtschaftlicher sein als noch größere Modelle mit etwa 100 Billionen Parametern, selbst wenn diese technisch möglich wären.

Empfehlung

Danach erwarten die Analysten jedoch eine Verlangsamung des Wachstums: In den nächsten drei Jahren sollen die Modellgrößen um weniger als den Faktor 10 zunehmen, was ein langsameres Wachstum wäre als der Sprung von GPT-3 zu GPT-4.

Ein Hindernis bei der Weiterentwicklung von KI ist laut Ex-OpenAI-Chefwissenschaftler Ilya Sutskever der Mangel an Trainingsdaten. Auch OpenAI-CEO Sam Altman sagte im Juni, dass man zwar ausreichend Daten für die nächste KI-Generation hat, dass man künftig jedoch mehr hochwertige Daten benötige und KI effizienter aus diesen Daten lernen müsse.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Entgegen der früheren Annahme "mehr Parameter, mehr Leistung" kommen die neuesten KI-Sprachmodelle wie GPT-4o und Claude 3.5 Sonnet mit deutlich weniger Parametern aus als ihre Vorgänger.
  • Schätzungen zufolge hat GPT-4o etwa 200 Milliarden und Claude 3.5 Sonnet etwa 400 Milliarden Parameter, verglichen mit 1,8 Billionen bei GPT-4.
  • Gründe für den Trend zu kleineren Modellen sind: die hohe Nachfrage nach effizienten KI-Diensten, die Möglichkeit der "Destillation" zur Verkleinerung bei gleichbleibender Leistung, der Wechsel zu Chinchilla-Skalierungsgesetzen und Test-Time Compute Scaling sowie verbesserte "In-Context-Reasoning"-Methoden auf Basis synthetischer Daten.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!