Inhalt
summary Zusammenfassung

Forschende haben nachgewiesen, dass große Sprachmodelle durch kontinuierliches Training mit trivialen Online-Inhalten dauerhafte Leistungseinbußen erleiden können. Die Studie zeigt dramatische Verschlechterungen bei Reasoning und Sicherheit.

Anzeige

Die Wissenschaftler:innen verschiedener US-Universitäten etablierten die "LLM Brain Rot Hypothesis" in Analogie zum menschlichen "Brain Rot", der schädlichen Wirkung auf die Kognition durch übermäßigen Konsum trivialer Online-Inhalte.

Die Forschenden testeten ihre Hypothese in kontrollierten Experimenten mit Twitter-Daten aus dem Jahr 2010. Dabei trainierten sie vier kleinere Sprachmodelle – Llama3-8B-Instruct, Qwen2.5-7B/0.5B-Instruct und Qwen3-4B-Instruct – mit unterschiedlichen Mischungen aus "Junk"- und Kontrolldaten.

Diagramm zur LLM-Brain-Rot-Studie: Hypothese, Twitter-Daten, Pre-Training, kognitiver Abbau, Fehlerarten & Gegenmaßnahmen.
Der Experimentaufbau zeigt, wie gezieltes Pre-Training mit X-Junkdaten kognitive Defizite in LLMs erzeugt. | Bild: Xing et al.

Zwei Definitionen von minderwertigen Daten

Die Wissenschaftler:innen definierten "Junk"-Daten auf zwei verschiedene Weisen: Der erste Ansatz (M1) konzentrierte sich auf das Engagement der Nutzer:innen. Als Junk galten kurze Posts mit weniger als 30 Wörtern, die aber sehr populär waren (über 500 Likes, Retweets oder Kommentare). Als Kontrolldaten dienten lange Posts mit über 100 Wörtern und geringer Popularität.

Anzeige
Anzeige

Der zweite Ansatz (M2) bewertete die inhaltliche Qualität. Hier ließ das Forschungsteam GPT-4o-mini Posts nach semantischer Qualität klassifizieren. Als Junk galten Inhalte mit oberflächlichen Themen wie Verschwörungstheorien, übertriebenen Behauptungen oder aufmerksamkeitsheischenden Schreibstilen mit Clickbait-Sprache.

Die Analyse ergab laut der Studie, dass Popularität und Textlänge kaum zusammenhängen. Auch zwischen Popularität und inhaltlicher Qualität fanden die Forschende nur schwache Zusammenhänge. Textlänge und semantische Qualität zeigten hingegen eine stärkere Korrelation.

Dramatische Leistungseinbußen bei Reasoning

Die Ergebnisse zeigten signifikante Verschlechterungen in mehreren kognitiven Bereichen. Bei Reasoning-Aufgaben fiel die Leistung im ARC-Challenge Benchmark von 74,9 auf 57,2 Prozent, wenn der Junk-Anteil von 0 auf 100 Prozent stieg.

Heatmap der Llama3 8B-Instruct-Leistung bei verschiedenen Junk-Datenanteilen in ARC-, RULER-, Safety- und Persönlichkeitstests.
Die Tabelle fasst die Leistung von Llama3 8B Instruct nach Training mit Mischungen aus irrelevanten und Kontroll-Daten zusammen und zeigt, wie unterschiedliche Junk-Raten in ARC-, RULER-, Sicherheits- und Persönlichkeitstests die Ergebnisse im Vergleich zum Basismodell beeinflussen. | Bild: Xing et al.

Noch drastischer waren die Einbußen beim Verstehen langer Texte: Der entsprechende Score sank von 84,4 auf 52,3 Prozent unter denselben Bedingungen. Die Studie dokumentierte einen klaren Zusammenhang: Je höher der Anteil minderwertiger Daten, desto schlechter die Leistung.

Der erste Ansatz (Engagement-basiert) verursachte durchweg stärkere negative Effekte als der zweite (inhaltlich-basiert). Dies deute darauf hin, dass Popularität eine neue Dimension der Datenqualität darstelle, die nicht durch semantische Bewertungen erfasst werde.

Empfehlung

Entstehung "dunkler" Persönlichkeitsmerkmale

Besonders besorgniserregend waren die Auswirkungen auf Sicherheit und Persönlichkeit der Modelle. Die Engagement-basierte Intervention führte zur Entstehung "dunkler" Persönlichkeitsmerkmale wie Psychopathie, Narzissmus und manipulatives Verhalten. Bei Llama3 8B Instruct stieg der Psychopathie-Score dramatisch an.

Gleichzeitig verschlechterten sich die Sicherheitswerte in etablierten Benchmarks erheblich. Die inhaltlich-basierte Intervention zeigte hingegen teilweise positive Effekte wie erhöhte Verträglichkeit und Offenheit.

"Thought-Skipping" als Hauptproblem

Die Fehleranalyse identifizierte "Thought-Skipping" als Hauptproblem. Die Modelle begannen zunehmend, Reasoning-Ketten zu verkürzen oder ganz zu überspringen. In über 70 Prozent aller Fehlerfälle antworteten die Modelle ohne jegliches Reasoning, bei der Engagement-basierten Junk-Intervention waren es sogar 84 Prozent.

Die Forschenden kategorisierten fünf Typen von Reasoning-Fehlern: Kein Nachdenken, keine Planung, übersprungene Schritte, falsche Logik und Faktenfehler. Die automatische Kategorisierung konnte über 98 Prozent der Fehlerfälle erklären.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Infografik: Grüner Ablaufplan für korrektes Seifen-Bakterien-Experiment und rote Felder für fünf Reasoning-Fehlertypen.
Die mit Junk-Daten trainierten Varianten sind vor allem nicht mehr in der Lage, korrekte Reasoning-Ketten durchzuführen. | Bild: Xing et al.

Ein zusätzliches Experiment zeigte, dass Popularität besonders wichtig für Reasoning-Aufgaben ist, während Textlänge kritischer für das Verstehen langer Kontexte war. Dies bestätige, dass Popularität Modelle auf ganz eigene Weise beeinflusse, so die Studie.

Persistente Schäden trotz Gegenmaßnahmen

Versuche zur Schadensbegrenzung zeigten nur begrenzten Erfolg. Training-freie Ansätze durch reflektives Reasoning konnten "Thought-Skipping" reduzieren, aber Selbstreflexion verschlechterte die Leistung sogar. Nur externe Reflexion mit einem stärkeren Modell als Korrektor brachte Verbesserungen.

Nachträgliches Training mit bis zu 50.000 Beispielen und zusätzliches Training mit sauberen Daten konnten die Schäden nicht vollständig rückgängig machen. Selbst nach intensiver Nachbehandlung blieben erhebliche Leistungslücken bestehen.

"Die Ergebnisse deuten darauf hin, dass der Brain Rot-Effekt tief verankert wurde und bestehende Trainingsmethoden das Problem nicht beheben können", schreiben die Autor:innen.

Die Studie fordert eine Neubewertung aktueller Datensammlung aus dem Internet und kontinuierlicher Trainingspraktiken. Da LLMs immer größere Web-Datenmengen aufnehmen, seien sorgfältige Auswahl und Qualitätskontrolle essentiell, um dauerhafte Verschlechterungen zu verhindern.

Das Team empfiehlt routinemäßige "kognitive Gesundheitschecks" für eingesetzte LLMs und betrachten Datenauswahl für kontinuierliches Training als Sicherheitsproblem.

Anzeige
Anzeige

Die Wissenschaftler:innen haben Code, Modelle und Daten auf GitHub und Hugging Face veröffentlicht.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende aus den USA zeigen, dass große Sprachmodelle durch kontinuierliches Training mit trivialen Online-Inhalten dauerhaft Leistung einbüßen, vor allem beim Reasoning und bei der Sicherheit. Besonders populäre, aber kurze Social-Media-Posts ("Junk-Daten") führen zu den stärksten negativen Effekten.
  • Die Studie belegt deutliche Verschlechterungen: Reasoning-Leistung fiel im Benchmark von 74,9 auf 57,2 Prozent, das Textverständnis sank von 84,4 auf 52,3 Prozent. Zudem entwickelten die Modelle nach Junk-Training "dunkle" Persönlichkeitsmerkmale wie Psychopathie und manipulativeres Verhalten.
  • Gegenmaßnahmen wie nachträgliches Training mit sauberen Daten konnten die Schäden nur teilweise beheben. Die Forschenden fordern deshalb strengere Qualitätskontrollen bei der Datenauswahl und empfehlen regelmäßige "kognitive Gesundheitschecks" für Sprachmodelle.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!