Inhalt
summary Zusammenfassung

Zum Zeitpunkt des ersten GPT-4 sah es so aus, als würden KI-Modelle nur einen Trend kennen: immer größer. Doch der Trend hat sich umgekehrt.

Anzeige

Andrej Karpathy, ehemaliger KI-Forscher bei OpenAI und Tesla, geht davon aus, dass der Wettbewerb um immer größere KI-Sprachmodelle in Zukunft in die entgegengesetzte Richtung gehen wird: Künftige Modelle werden seiner Meinung nach kleiner, dafür aber smarter.

In jüngster Zeit haben viele Hersteller kleinere, aber im Vergleich zu den großen Modellen relativ leistungsfähigere und günstige KI-Modelle auf den Markt gebracht, auch OpenAI mit GPT-4o mini.

"Ich wette, dass wir Modelle sehen werden, die sehr gut und zuverlässig 'denken' und sehr, sehr klein sind", sagt Karpathy.

Anzeige
Anzeige

Dass die stärksten Modelle heute so groß sind, liegt laut Karpathy daran, dass das Training noch sehr aufwendig ist: Die Modelle müssen das gesamte Internet auswendig lernen - und seien dabei bemerkenswert gut. Sie könnten etwa kryptologische Hashfunktionen gängiger Zahlen aufsagen oder sich wirklich obskure Fakten merken. LLMs seien beim Auswendiglernen viel besser als Menschen.

Verbesserungen seien deshalb so schwierig, weil das Denken in den Trainingsdaten mit Wissen "verwoben" sei. Deshalb müssen die Modelle erst größer werden, bevor sie kleiner werden können. Sie müssten automatisiert helfen, die Trainingsdaten in ideale synthetische Formate umzuwandeln.

Karpathy prognostiziert auf Basis dieser Annahme eine kontinuierliche Verbesserung: Ein Modell helfe, die Trainingsdaten für das nächste zu generieren, bis man den "perfekten Trainingssatz" habe. Selbst ein heute noch winziges KI-Modell wie GPT-2 mit 1,5 Milliarden Parametern könne dann als "smart" gelten, wenn es mit diesen Superdaten trainiert werde.

Bestimmte Benchmarks könnten dann womöglich schlechter gelöst werden, wie der LLM-Industriestandard MMLU (Massive Multi-task Language Understanding), der viel Wissen abfragt. Dafür könnte das smartere KI-Modell nötiges Wissen verlässlicher abrufen und Fakten verifizieren. Diese beiden Punkte soll gerüchteweise auch OpenAIs KI-Logik-Projekt "Strawberry" adressieren.

Effizient skalieren

OpenAI-Chef Sam Altman äußerte sich in der Vergangenheit ähnlich, als er einerseits das "Ende einer Ära" großer KI-Modelle verkündete und andererseits bestätigte, dass die Datenqualität der entscheidende Erfolgsfaktor für das weitere KI-Training sei - unabhängig davon, ob es sich um reale oder synthetische Daten handele. Die Kernfrage sei, wie KI-Systeme aus weniger Daten mehr lernen können, so Altman.

Empfehlung

Von dieser Annahme gingen auch die Microsoft-Forscher bei der Entwicklung der Phi-Modelle aus. Die KI-Forscher von Hugging Face bestätigten diese Hypothese ebenfalls und veröffentlichten einen Datensatz mit qualitativ hochwertigen Trainingsdaten.

Das bedeutet jedoch nicht, dass Skalierung in Zukunft kein Faktor mehr ist. Auch kleine, aber qualitativ hochwertige Modelle könnten von immer mehr, vielfältigeren und qualitativ besseren Daten, mehr Parametern und Skalierung profitieren. Nicht umsonst streben OpenAI und Co. nach immer mehr Rechenleistung.

Der Schritt zurück zu kleineren, effizienteren und qualitativ besseren Modellen im Vergleich zu großen KI-Modellen wäre in diesem Szenario tatsächlich eine Art Konsolidierungsphase, in der das bisher Erreichte konsolidiert und optimiert wird, ein Luftholen vor der nächsten wilden Rechenrunde.

Spätestens das nächste große oder größere KI-Modell von OpenAI dürfte einen deutlichen Fingerzeig geben, wohin die Reise geht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Andrej Karpathy, ehemaliger KI-Forscher bei OpenAI und Tesla, erwartet, dass KI-Sprachmodelle in Zukunft kleiner und effizienter statt immer größer werden. Dazu müssen die Trainingsdaten so optimiert werden, dass auch kleine Modelle zuverlässig "denken" können.
  • Die großen KI-Modelle seien dennoch notwendig: Sie hätten die Fähigkeit, automatisiert zu helfen, Trainingsdaten zu bewerten und in ideale synthetische Formate umzuwandeln. So könne jedes Modell die Daten für das nächste verbessern, bis der "perfekte Trainingsdatensatz" erreicht sei.
  • Auch OpenAI-Chef Sam Altman sieht die Datenqualität als entscheidenden Erfolgsfaktor für das weitere KI-Training. Die Kernfrage sei, wie KI-Systeme aus weniger Daten mehr lernen können, so Altman.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!