Forschende haben nachgewiesen, dass große Sprachmodelle durch kontinuierliches Training mit trivialen Online-Inhalten dauerhafte Leistungseinbußen erleiden können. Die Studie zeigt dramatische Verschlechterungen bei Reasoning und Sicherheit.
Die Wissenschaftler:innen verschiedener US-Universitäten etablierten die "LLM Brain Rot Hypothesis" in Analogie zum menschlichen "Brain Rot", der schädlichen Wirkung auf die Kognition durch übermäßigen Konsum trivialer Online-Inhalte.
Die Forschenden testeten ihre Hypothese in kontrollierten Experimenten mit Twitter-Daten aus dem Jahr 2010. Dabei trainierten sie vier kleinere Sprachmodelle – Llama3-8B-Instruct, Qwen2.5-7B/0.5B-Instruct und Qwen3-4B-Instruct – mit unterschiedlichen Mischungen aus "Junk"- und Kontrolldaten.

Zwei Definitionen von minderwertigen Daten
Die Wissenschaftler:innen definierten "Junk"-Daten auf zwei verschiedene Weisen: Der erste Ansatz (M1) konzentrierte sich auf das Engagement der Nutzer:innen. Als Junk galten kurze Posts mit weniger als 30 Wörtern, die aber sehr populär waren (über 500 Likes, Retweets oder Kommentare). Als Kontrolldaten dienten lange Posts mit über 100 Wörtern und geringer Popularität.
Der zweite Ansatz (M2) bewertete die inhaltliche Qualität. Hier ließ das Forschungsteam GPT-4o-mini Posts nach semantischer Qualität klassifizieren. Als Junk galten Inhalte mit oberflächlichen Themen wie Verschwörungstheorien, übertriebenen Behauptungen oder aufmerksamkeitsheischenden Schreibstilen mit Clickbait-Sprache.
Die Analyse ergab laut der Studie, dass Popularität und Textlänge kaum zusammenhängen. Auch zwischen Popularität und inhaltlicher Qualität fanden die Forschende nur schwache Zusammenhänge. Textlänge und semantische Qualität zeigten hingegen eine stärkere Korrelation.
Dramatische Leistungseinbußen bei Reasoning
Die Ergebnisse zeigten signifikante Verschlechterungen in mehreren kognitiven Bereichen. Bei Reasoning-Aufgaben fiel die Leistung im ARC-Challenge Benchmark von 74,9 auf 57,2 Prozent, wenn der Junk-Anteil von 0 auf 100 Prozent stieg.

Noch drastischer waren die Einbußen beim Verstehen langer Texte: Der entsprechende Score sank von 84,4 auf 52,3 Prozent unter denselben Bedingungen. Die Studie dokumentierte einen klaren Zusammenhang: Je höher der Anteil minderwertiger Daten, desto schlechter die Leistung.
Der erste Ansatz (Engagement-basiert) verursachte durchweg stärkere negative Effekte als der zweite (inhaltlich-basiert). Dies deute darauf hin, dass Popularität eine neue Dimension der Datenqualität darstelle, die nicht durch semantische Bewertungen erfasst werde.
Entstehung "dunkler" Persönlichkeitsmerkmale
Besonders besorgniserregend waren die Auswirkungen auf Sicherheit und Persönlichkeit der Modelle. Die Engagement-basierte Intervention führte zur Entstehung "dunkler" Persönlichkeitsmerkmale wie Psychopathie, Narzissmus und manipulatives Verhalten. Bei Llama3 8B Instruct stieg der Psychopathie-Score dramatisch an.
Gleichzeitig verschlechterten sich die Sicherheitswerte in etablierten Benchmarks erheblich. Die inhaltlich-basierte Intervention zeigte hingegen teilweise positive Effekte wie erhöhte Verträglichkeit und Offenheit.
"Thought-Skipping" als Hauptproblem
Die Fehleranalyse identifizierte "Thought-Skipping" als Hauptproblem. Die Modelle begannen zunehmend, Reasoning-Ketten zu verkürzen oder ganz zu überspringen. In über 70 Prozent aller Fehlerfälle antworteten die Modelle ohne jegliches Reasoning, bei der Engagement-basierten Junk-Intervention waren es sogar 84 Prozent.
Die Forschenden kategorisierten fünf Typen von Reasoning-Fehlern: Kein Nachdenken, keine Planung, übersprungene Schritte, falsche Logik und Faktenfehler. Die automatische Kategorisierung konnte über 98 Prozent der Fehlerfälle erklären.

Ein zusätzliches Experiment zeigte, dass Popularität besonders wichtig für Reasoning-Aufgaben ist, während Textlänge kritischer für das Verstehen langer Kontexte war. Dies bestätige, dass Popularität Modelle auf ganz eigene Weise beeinflusse, so die Studie.
Persistente Schäden trotz Gegenmaßnahmen
Versuche zur Schadensbegrenzung zeigten nur begrenzten Erfolg. Training-freie Ansätze durch reflektives Reasoning konnten "Thought-Skipping" reduzieren, aber Selbstreflexion verschlechterte die Leistung sogar. Nur externe Reflexion mit einem stärkeren Modell als Korrektor brachte Verbesserungen.
Nachträgliches Training mit bis zu 50.000 Beispielen und zusätzliches Training mit sauberen Daten konnten die Schäden nicht vollständig rückgängig machen. Selbst nach intensiver Nachbehandlung blieben erhebliche Leistungslücken bestehen.
"Die Ergebnisse deuten darauf hin, dass der Brain Rot-Effekt tief verankert wurde und bestehende Trainingsmethoden das Problem nicht beheben können", schreiben die Autor:innen.
Die Studie fordert eine Neubewertung aktueller Datensammlung aus dem Internet und kontinuierlicher Trainingspraktiken. Da LLMs immer größere Web-Datenmengen aufnehmen, seien sorgfältige Auswahl und Qualitätskontrolle essentiell, um dauerhafte Verschlechterungen zu verhindern.
Das Team empfiehlt routinemäßige "kognitive Gesundheitschecks" für eingesetzte LLMs und betrachten Datenauswahl für kontinuierliches Training als Sicherheitsproblem.
Die Wissenschaftler:innen haben Code, Modelle und Daten auf GitHub und Hugging Face veröffentlicht.