Inhalt
summary Zusammenfassung

Eine neue Studie hat untersucht, wie sich toxische Inhalte aus dem Onlineforum 4chan im Pre-Training großer Sprachmodelle auswirken. Das überraschende Ergebnis: Modelle, die mit einem gezielten Anteil dieser Daten trainiert wurden, lassen sich im Nachhinein besser entgiften.

Anzeige

Um schädliche Ausgaben zu verhindern, filtern viele Entwickler:innen toxische Inhalte bereits im Vorfeld aus dem Trainingsmaterial heraus. Eine neue Studie zeigt nun, dass dieser Ansatz nicht immer zielführend ist – insbesondere dann nicht, wenn das Modell später durch zusätzliche Verfahren entschärft werden soll.

In der Studie wurde das winzige Sprachmodell Olmo-1B mit unterschiedlichen Anteilen toxischer Daten aus dem Internetforum 4chan trainiert. 4chan ist für seine oft beleidigenden und provokativen Inhalte bekannt, in der Untersuchung diente es daher als gezielt eingesetzte Quelle toxischer Sprache. Als Gegenstück wurde das saubere C4-Datenset verwendet, das auf bereinigten Webtexten basiert.

Toxische Inhalte verbessern Repräsentationen

Das Forschungsteam analysierte, wie sich toxische Inhalte intern im Modell abbilden. In Modellen, die ausschließlich mit sauberen Daten trainiert wurden, waren toxische Konzepte oft diffus und überlagerten sich mit anderen Inhalten (Entanglement). Mit zunehmendem 4chan-Anteil im Training wurden diese toxischen Konzepte dagegen klarer und separater repräsentiert.

Anzeige
Anzeige
Liniendiagramm: Entanglement unterrepräsentierter vs. anderer Features in Abhängigkeit vom Datenverhältnis.
Mehr Trainingsdaten für unterrepräsentierte Merkmale (wie toxische Inhalte) reduzieren deren Entanglement im Modell signifikant. Dies verbessert die interne Trennung dieser Konzepte und ermöglicht eine bessere Steuerbarkeit des Modells. | Bild: Li et al.

Diese Trennschärfe ist entscheidend, wenn ein Modell im Nachhinein verändert werden soll. Nur wenn toxische Inhalte intern sauber von anderen Konzepten getrennt sind, können sie gezielt unterdrückt werden.

Zehn Prozent 4chan als praktikabler Kompromiss

In einem weiteren Schritt testete das Team verschiedene Methoden zur Entgiftung der Modelle. Besonders zuverlässig funktionierte die sogenannte Inference-Time Intervention, bei der toxische Neuronenaktivierungen während der Textgenerierung direkt abgeschwächt werden.

Am besten ließ sich ein Modell steuern, das mit einem Anteil von zehn Prozent 4chan-Daten trainiert worden war. Es zeigte die geringste generative Toxizität bei gleichzeitig stabiler Sprachleistung. Bei höheren Anteilen nahm die Grundtoxizität des Modells zwar weiter zu, ließ sich aber schwieriger kompensieren.

Balkendiagramm: KI-Toxizität vs. 4chan-Datenanteil & Steuerungsstärke. Geringste Toxizität bei 10% Daten & starker Steuerung.
Bei starker Steuerung wird die geringste Toxizität bei einem Anteil von etwa zehn Prozent 4chan-Daten im Trainingskorpus erreicht. | Bild: Li et al.

Die Studie verglich das Vorgehen auch mit anderen Detoxifizierungsverfahren wie Prompting, Supervised Finetuning und Direct Preference Optimization. In fast allen Fällen schnitten die Modelle mit moderatem 4chan-Anteil besser ab.

Robustheit gegen gezielte Angriffe steigt

Zusätzlich testete das Team die Modelle mit sogenannten Jailbreak-Prompts. Dabei handelt es sich um gezielte Prompts, die eingebaute LLM-Schutzmechanismen umgehen und toxische Antworten provozieren sollen. In diesen Tests waren Modelle mit 4chan-Erfahrung und nachträglicher Steuerung deutlich robuster.

Empfehlung

Die Studie legt nahe, toxische Inhalte nicht grundsätzlich aus dem Pre-Training auszuschließen. Stattdessen sollten sie kontrolliert und in begrenztem Umfang einbezogen werden, um Modelle robuster und steuerbarer zu machen. Das könnte auch für andere sensible Konzepte gelten, etwa stereotype Rollenbilder oder politische Extrempositionen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine neue Studie zeigt, dass große Sprachmodelle, die mit einem gezielten Anteil toxischer Inhalte aus dem Onlineforum 4chan trainiert wurden, nachträglich besser von solchen Inhalten befreit werden können als Modelle, die ausschließlich mit sauberen Daten trainiert wurden.
  • Besonders effektiv war ein Trainingsmix mit etwa zehn Prozent 4chan-Daten: Diese Modelle ließen sich präziser steuern und erzielten die geringste generative Toxizität, ohne an Sprachleistung einzubüßen. Andere Detox-Verfahren wie Prompting oder Supervised Finetuning schnitten meist schlechter ab.
  • Modelle mit begrenzter 4chan-Erfahrung zeigten zudem eine erhöhte Robustheit gegen gezielte Angriffe wie Jailbreak-Prompts. Die Forschenden empfehlen, toxische Inhalte im Pretraining nicht grundsätzlich auszuschließen, sondern kontrolliert zu integrieren, um die Steuerbarkeit und Sicherheit der Modelle zu verbessern.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!