Deepmind AlphaZero: Größer ist besser, sagen KI-Forscher

Für große Sprachmodelle fanden KI-Forschende 2020 Skalierungsgesetze. Eine neue Arbeit zeigt, dass es solche auch für Reinforcement Learning Algorithmen geben könnte.

In einer 2020 veröffentlichten Arbeit mit dem Namen "Scaling Laws for Neural Language Models" untersuchten KI-Forschende empirische Skalierungsgesetze für die Leistung von Sprachmodellen wie GPT-2 oder GPT-3. Sie zeigten, dass die Leistung der Modelle je nach Modellgröße, der Datensatzgröße und dem für das Training verwendeten Rechenaufwand um mehrere Größenordnungen skaliert.

In ihrer Arbeit leitete das Team optimale Hyperparameter für das Training großer Sprachmodelle bei fixem Rechenleistungs-Budget ab, also etwa optimale Netzwerkgröße und Datenmengen. 2022 bestätigten Forschende von Deepmind dann mit Chinchilla, dass solche Skalierungsgesetze zwar existieren, die vom ersten Team vorgeschlagenen Hyperparameter jedoch den positiven Einfluss von mehr Trainingsdaten unterschätzt hatten. Laut Deepmind sollte für ein optimales Training die Modellgröße und die Anzahl der Trainings-Token gleichermaßen skaliert werden.

Skalierungsgesetze treiben KI-Entwicklung an

Schon bei der Veröffentlichung von GPT-2 stellten OpenAI-Forschende fest, dass die Leistung ihres Netzwerks mit der Größe skalierte. Mit GPT-3 zeigte das Unternehmen dann, wie groß der mögliche Leistungssprung durch Skalierung war. Die Skalierungsgesetze gaben in 2020 diesem Phänomen eine allgemeinere Grundlage und motivieren seitdem zahlreiche Entwicklungen und Investitionen in größere Modelle.

Abseits der großen Sprachmodelle gab es bisher wenig Versuche, Skalierungsgesetze zu finden. Ähnlich gestaltete Modelle, etwa für die Bildgenerierung oder OpenAIs Video PreTraining für Minecraft zeigen jedoch einen ähnlichen Trend.

Dass es solche Skalierungsgesetze auch außerhalb solcher "Foundation Models" geben könnte, zeigen jetzt Forschende der Goethe-Universität Frankfurt.

Skalierungsgesetze für Reinforcement Learning

In ihrer Arbeit nehmen die Forschenden eine Analyse im Stil des Skalierungsgesetz-Papers von 2020 vor, statt Sprachmodelle skalieren sie jedoch AlphaZero RL-Agenten, die zwei unterschiedliche Spiele spielen: Connect Four und Pentago. Diese Spiele seien geeignete Kandidaten für ihre Untersuchung, da sie nicht trivial zu erlernen und gleichzeitig leicht genug seien, um eine größere Anzahl von Agenten mit einer überschaubaren Menge an Ressourcen zu ermöglichen, heißt es in der Veröffentlichung.

Optimale Anzahl von Parametern des neuronalen Netzes für unterschiedliche Rechenleistung. | Bild: Neumann et al.

In ihren Versuchen zeigen die Forschenden, dass die Leistung der Agenten als Potenzgesetz mit Größe des neuronalen Netzes skaliert, "wenn die Modelle bis zur Konvergenz an der Grenze der verfügbaren Rechenleistung trainiert werden". Damit sehen sie den Beweis erbracht, dass die aus Sprachmodellen bekannten Skalierungsgesetze auch in den AlphaZero-Modellen vorhanden sind. Sie vermuten, dass auch andere Algorithmen des Reinforcement Learnings ähnliches Skalierungsverhalten aufweisen.

In einer Extrapolation ihrer Ergebnisse zeigt das Team zudem, dass die von Deepmind vorgestellten, bahnbrechenden KI-Systeme AlphaGo Zero und AlphaZero womöglich zu kleine neuronale Netze verwendeten und mit größeren noch bessere Leistung erzielen könnten.

Empfehlung

KI-Forschung

Forscher schlagen Mensch-Nachweis vor, um Menschen online von KIs zu unterscheiden

Es sei außerdem möglich, dass Veränderungen an den Hyperparametern, wie sie etwa bei Chinchilla demonstriert wurden, auch im Fall von AlphaZero eine andere optimale Verteilung der Trainingsressourcen ermögliche. Die Untersuchung der Auswirkung der Hyperparameter soll Teil der nächsten Arbeit des Teams werden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Deepmind AlphaZero: Größer ist besser, sagen KI-Forscher

Skalierungsgesetze treiben KI-Entwicklung an

Skalierungsgesetze für Reinforcement Learning

Forscher schlagen Mensch-Nachweis vor, um Menschen online von KIs zu unterscheiden

Raubkopien für KI-Training: Autoren fordern 150.000 Dollar pro Buch von Microsoft

Meta gewinnt Buchstreit um KI-Training – doch das Gericht sendet klares Warnsignal

LongWriter-Zero lernt nur durch Reinforcement Learning lange Texte zu schreiben

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Deepmind AlphaZero: Größer ist besser, sagen KI-Forscher

Skalierungsgesetze treiben KI-Entwicklung an

Skalierungsgesetze für Reinforcement Learning

Artikel teilen

Bankverbindung