Große Sprachmodelle: OpenAI-CEO sieht "Ende einer Ära" bei Parameteranzahl

Midjourney prompted by THE DECODER

Lange Zeit wurde der mögliche Fortschritt großer Sprachmodelle primär an der Anzahl der Parameter gemessen. Sam Altman, CEO von OpenAI, hält diesen Ansatz für nicht zukunftsfähig.

Altman vergleicht den Wettlauf um immer mehr Parameter bei großen Sprachmodellen mit dem Wettlauf um immer höhere Taktraten von Chips in den 1990er- und 2000er-Jahren, bei dem eine immer höhere Taktfrequenz das Ziel war. Heute spiele die Taktrate beispielsweise von Smartphone-Chips kaum noch eine Rolle, obwohl diese Chips viel leistungsfähiger seien als frühere Prozessoren.

Die Anzahl der Parameter hält der OpenAI-CEO nicht mehr für einen guten alleinigen Indikator für die Leistungsfähigkeit eines Modells. "Ich glaube, wir sind am Ende der Ära, in der es nur diese riesigen Modelle gibt, und wir werden sie auf andere Weise verbessern", sagte Altman auf der Veranstaltung "Imagination in Action" (via Techcrunch), auf der er sich auch zu GPT-5 und zum KI-Pause-Brief äußerte.

Sprachmodell-Entwicklung: Fokus auf Fähigkeiten

Dennoch könne die Zahl der Parameter weiter steigen, so Altman. Der Fokus müsse aber darauf liegen, die Fähigkeiten der Modelle zu verbessern und zu erweitern, nicht die Anzahl der Parameter. Mögliche zukünftige Architekturen könnten zum Beispiel aus mehreren kleinen Modellen bestehen, die zusammenarbeiten.

Schon in der Vergangenheit sagte Altman, dass sich zukünftige KI-Modelle durch ihre Effizienz und Datenqualität auszeichnen sollten als durch ihre schiere Parameteranzahl. Modelle wie Deepminds Chinchilla, Sparse Luminous Base von Aleph Alpha oder Metas LLaMA-Modelle zeigen, dass Sprachsysteme mit weniger Parametern durch eine effizientere Architektur oder mehr Datentraining mit größeren Modellen mithalten können.

In der Vergangenheit kommunizierte OpenAI die Parameteranzahl der eigenen Modelle stets, bei GPT-4 verzichtete das Unternehmen erstmals darauf. Die Website Semafor berichtet, dass GPT-4 eine Billion Parameter haben soll, also etwa sechsmal so viele wie GPT-3. Diese Zahl wurde bisher von keiner anderen Quelle bestätigt. Auf Nachfrage wollte sich der Semafor-Journalist Reed Albergotti nicht konkret zur Herkunft der Zahl oder ihrer Richtigkeit äußern und verwies auf eine mögliche weiterführende Berichterstattung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Große Sprachmodelle: OpenAI-CEO sieht "Ende einer Ära" bei Parameteranzahl

Sprachmodell-Entwicklung: Fokus auf Fähigkeiten

GPT-3: KI als Reddit-Autor - (fast) keiner merkt es

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Große Sprachmodelle: OpenAI-CEO sieht "Ende einer Ära" bei Parameteranzahl

Sprachmodell-Entwicklung: Fokus auf Fähigkeiten

GPT-3: KI als Reddit-Autor - (fast) keiner merkt es