Große Sprachmodelle: OpenAI-CEO sieht "Ende einer Ära" bei Parameteranzahl

16. April 2023 Matthias Bastian

Ein visuell fesselndes Bild für einen Artikel in einem Magazin, das die enorme Anzahl von Parametern eines großen Sprachmodells als kompliziertes, miteinander verbundenes Netzwerk darstellt. Entwerfen Sie ein komplexes Netzwerk aus Knoten und Verbindungen in der Mitte des Bildes auf einem weißen oder hellen Hintergrund. Jeder Knoten steht für einen Parameter, und die Verbindungen stellen die Beziehungen zwischen den Parametern dar. Verwenden Sie verschiedene Farben für die Knoten und eine einzige, dezente Farbe für die Verbindungen (z. B. grau oder hellblau). Ordnen Sie die Knoten so an, dass sie eine interessante, organische Form bilden, wie z. B. ein Gehirn oder eine abstrakte Wolke. Das Gesamtthema sollte ein Gefühl von Komplexität und Vernetzung hervorrufen und die immense Größe und Struktur der Parameter des großen Sprachmodells widerspiegeln.

Lange Zeit wurde der mögliche Fortschritt großer Sprachmodelle primär an der Anzahl der Parameter gemessen. Sam Altman, CEO von OpenAI, hält diesen Ansatz für nicht zukunftsfähig.

Altman vergleicht den Wettlauf um immer mehr Parameter bei großen Sprachmodellen mit dem Wettlauf um immer höhere Taktraten von Chips in den 1990er- und 2000er-Jahren, bei dem eine immer höhere Taktfrequenz das Ziel war. Heute spiele die Taktrate beispielsweise von Smartphone-Chips kaum noch eine Rolle, obwohl diese Chips viel leistungsfähiger seien als frühere Prozessoren.

Die Anzahl der Parameter hält der OpenAI-CEO nicht mehr für einen guten alleinigen Indikator für die Leistungsfähigkeit eines Modells. "Ich glaube, wir sind am Ende der Ära, in der es nur diese riesigen Modelle gibt, und wir werden sie auf andere Weise verbessern", sagte Altman auf der Veranstaltung "Imagination in Action" (via Techcrunch), auf der er sich auch zu GPT-5 und zum KI-Pause-Brief äußerte.

Sprachmodell-Entwicklung: Fokus auf Fähigkeiten

Dennoch könne die Zahl der Parameter weiter steigen, so Altman. Der Fokus müsse aber darauf liegen, die Fähigkeiten der Modelle zu verbessern und zu erweitern, nicht die Anzahl der Parameter. Mögliche zukünftige Architekturen könnten zum Beispiel aus mehreren kleinen Modellen bestehen, die zusammenarbeiten.

Schon in der Vergangenheit sagte Altman, dass sich zukünftige KI-Modelle durch ihre Effizienz und Datenqualität auszeichnen sollten als durch ihre schiere Parameteranzahl. Modelle wie Deepminds Chinchilla, Sparse Luminous Base von Aleph Alpha oder Metas LLaMA-Modelle zeigen, dass Sprachsysteme mit weniger Parametern durch eine effizientere Architektur oder mehr Datentraining mit größeren Modellen mithalten können.

In der Vergangenheit kommunizierte OpenAI die Parameteranzahl der eigenen Modelle stets, bei GPT-4 verzichtete das Unternehmen erstmals darauf. Die Website Semafor berichtet, dass GPT-4 eine Billion Parameter haben soll, also etwa sechsmal so viele wie GPT-3. Diese Zahl wurde bisher von keiner anderen Quelle bestätigt. Auf Nachfrage wollte sich der Semafor-Journalist Reed Albergotti nicht konkret zur Herkunft der Zahl oder ihrer Richtigkeit äußern und verwies auf eine mögliche weiterführende Berichterstattung.

Quellen:

Techcrunch