Warum größere KI-Modelle besser werden: MIT-Studie führt Skalierungsgesetze auf "Superposition" zurück
Forschende des MIT liefern eine mechanistische Erklärung dafür, warum die Leistung großer Sprachmodelle so verlässlich mit ihrer Größe steigt. Der Schlüssel liege in einem Phänomen namens Superposition.
Dass größere Modelle besser werden, ist eine der zuverlässigsten Beobachtungen der KI-Forschung. Verdoppelt man Parameter, Trainingsdaten oder Rechenleistung, sinkt der Vorhersagefehler eines Sprachmodells nach einem Potenzgesetz. Diese sogenannten "Neural Scaling Laws" treiben den Bau immer größerer Systeme an. Warum sie überhaupt existieren, war bisher allerdings nicht abschließend geklärt.
Eine auf der NeurIPS 2025 vorgestellte Studie von Yizhou Liu, Ziming Liu und Jeff Gore vom MIT führt das Phänomen auf eine geometrische Eigenschaft zurück, die in den Modellen selbst angelegt ist: Superposition.
Mehr Konzepte als Platz
Sprachmodelle müssen Zehntausende Tokens und noch mehr abstrakte Bedeutungen in einem internen Raum unterbringen, der nur einige Tausend Dimensionen hat. Eigentlich passen in einen dreidimensionalen Raum nur drei Konzepte ohne gegenseitige Störung. LLMs umgehen diese Beschränkung, indem sie viele Konzepte gleichzeitig in denselben Dimensionen speichern. Die zugehörigen Vektoren überlappen sich dabei leicht. Genau dieses Quetschen mehrerer Bedeutungen in zu wenig Raum nennt die Forschung Superposition.
Bislang gingen viele Erklärungsversuche davon aus, dass nur die häufigsten Konzepte sauber abgebildet werden und der Rest verloren geht ("schwache Superposition"). Das MIT-Team zeigt anhand eines vereinfachten Modells von Anthropic, dass dieses Bild nicht zu echten LLMs passt.
Zwei Regime, zwei Erklärungen
Die Forschenden bauten ein stark vereinfachtes KI-Modell, in dem sie über einen Trainingsregler steuern konnten, wie stark sich gespeicherte Konzepte überschneiden dürfen. So ließen sich zwei Extremfälle vergleichen.
Im ersten Fall, der schwachen Superposition, speichert das Modell nur die häufigsten Konzepte sauber und ignoriert den Rest. Der Vorhersagefehler entsteht hier primär durch die weggelassenen seltenen Konzepte. Ob die Leistung mit der Modellgröße sauber nach einem Potenzgesetz wächst, hängt in diesem Fall davon ab, wie die Konzepte in den Trainingsdaten verteilt sind. Nur wenn diese Verteilung selbst einem Potenzgesetz folgt, tut es auch der Fehler. Das Paper nennt das "Power law in, power law out".
Im zweiten Fall, der starken Superposition, speichert das Modell alle Konzepte gleichzeitig, indem es ihre Vektoren leicht überlappen lässt. Der Fehler entsteht dann nicht mehr durch fehlende Konzepte, sondern durch das Rauschen, das diese Überlappungen erzeugen. Hier zeigt sich ein robustes Muster: Verdoppelt man die Breite des Modells, halbiert sich der Fehler ungefähr, vorhergesagt durch eine einfache geometrische Beziehung (1/m, wobei m die Breite des Modells ist). Wie die Konzepte in den Daten verteilt sind, spielt dabei kaum noch eine Rolle.
Echte Sprachmodelle bestätigen die Theorie
Um zu prüfen, welches der beiden Regime auf reale Systeme zutrifft, untersuchte das Team die Ausgabeschichten quelloffener Modelle: OPT, GPT-2, Qwen2.5 und Pythia, mit Größen von rund 100 Millionen bis 70 Milliarden Parametern. Das Ergebnis ist eindeutig: Alle Tokens sind im Modell repräsentiert, ihre Vektoren überlappen sich, und die Stärke dieser Überlappungen schrumpft genau im vorhergesagten 1/m-Verhältnis. Sprachmodelle arbeiten also im Regime der starken Superposition.
Auch der gemessene Skalierungsexponent passt: Er liegt bei 0,91 und damit nahe am theoretisch erwarteten Wert von 1. Aus den von Deepmind veröffentlichten Chinchilla-Daten lässt sich ein nahezu identischer Wert von 0,88 ableiten. Die beobachteten Skalierungsgesetze sind damit kein Zufall empirischer Beobachtung, sondern eine direkte Folge davon, wie Sprachmodelle Bedeutung im Inneren geometrisch organisieren.
Was das praktisch bedeutet
Die Arbeit liefert konkrete Antworten auf zwei offene Fragen der KI-Forschung. Die erste: Wann hört das Wachstum durch Skalierung auf? Laut den Forschenden dann, wenn die Breite eines Modells die Größe seines Vokabulars erreicht. Sobald genug Platz vorhanden ist, um jedes Token ohne Überlappung abzubilden, verschwindet der Anteil des Fehlers, der durch beengte Repräsentation entsteht. Das Potenzgesetz endet an dieser Grenze.
Die zweite Frage: Lassen sich Scaling Laws beschleunigen, also mehr Leistungsgewinn pro zusätzlichem Parameter herausholen? Bei natürlicher Sprache eher nicht, weil die Häufigkeitsverteilung der Wörter relativ flach ist. Bei spezialisierten Anwendungen mit stark ungleicher Verteilung der relevanten Konzepte könnte ein steileres Skalierungsverhalten möglich sein.
Daraus folgt auch ein Hinweis für das Architekturdesign: Modelle, die Superposition gezielt fördern, sollten bei gleicher Größe besser abschneiden. Ein Beispiel ist nGPT von Nvidia, das die internen Vektoren auf eine Einheitskugel zwingt und damit dichter packt.
Allerdings hat die Sache einen Haken: Je stärker Konzepte überlappen, desto schwerer kann nachvollzogen werden, was im Modell genau passiert. Für die mechanistische Interpretierbarkeit und damit für die KI-Sicherheitsforschung ist das ein Problem.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.