Inhalt
summary Zusammenfassung

Eine MIT-Forschungsgruppe hat ein Framework namens SEAL entwickelt, mit dem LLMs eigenständig synthetische Trainingsdaten generieren und sich damit selbst optimieren können.

Anzeige

SEAL basiert auf einem zweistufigen Verfahren. In der ersten Stufe lernt das Modell durch Belohnungslernen, effektive "Selbstbearbeitungen" zu generieren. Diese bestehen aus Anweisungen in natürlicher Sprache, die sowohl neue Trainingsdaten als auch Optimierungsparameter festlegen. In der zweiten Stufe wendet das System diese Anweisungen an und aktualisiert seine eigenen Gewichte durch maschinelle Lernverfahren.

Flussdiagramm: SEAL-Prozess zur LM-Optimierung durch RL, Self-Edits (SE), Test, Belohnung und iteratives Policy Update (θt+1).
Das Modell schlägt Selbstkorrekturen (SE) vor, passt seine Gewichtungen an, wird aufgabenbasiert bewertet und lernt durch Reinforcement Learning (RL) aus den Belohnungen, um bessere Korrekturen zu generieren. | Bild: Zweiger et al.

Das System nutzt eine spezielle Trainingsmethode namens ReST^EM-Algorithmus. Dieser funktioniert wie ein Filter, der nur erfolgreiche Selbstbearbeitungen zur Verstärkung auswählt. Konkret sammelt der Algorithmus verschiedene Selbstbearbeitungen, testet deren Wirksamkeit und trainiert das Modell dann nur auf jenen Varianten, die tatsächlich zu besseren Ergebnissen führen. Für effiziente Updates verwendet SEAL Low-Rank Adapters (LoRA), die leichtgewichtige Anpassungen ermöglichen, ohne das gesamte Modell neu zu trainieren.

Die Wissenschaftler:innen testeten SEAL in zwei verschiedenen Szenarien. Bei der Integration neuen Wissens verwendeten sie einen Textverständnis-Test mit Qwen2.5-7B. Das Modell generierte logische Schlussfolgerungen aus gegebenen Textabschnitten und trainierte dann auf diesen selbst erstellten Inhalten.

Anzeige
Anzeige
Synthetisch generierte Implikationen aus einer Passage dienen als Trainingsdaten für ein LoRA-Finetuning. | Bild: Zweiger et al.

SEAL erreichte hier eine Genauigkeit von 47 Prozent gegenüber 33,5 Prozent bei der Vergleichsmethode. Die Qualität der selbst generierten Daten übertraf sogar die von OpenAIs GPT-4.1, obwohl das verwendete Modell deutlich kleiner war.

Links: QA-Self-Edits vor vs. nach 3 RL-Iterationen. Rechts: Vergleich durchschnittlicher Edit-Längen für Basis, Prompt und RL.
Das Reinforcement Learning führt zur Generierung von detaillierteren Self-Edits, was wiederum bessere Leistung zur Folge hat. | Bild: Zweiger et al.

Im zweiten Test untersuchten die Forschenden Few-Shot Prompting, also Prompts mit Lösungsbeispielen, anhand eines vereinfachten Reasoning-Tests mit Llama 3.2-1B. Hier wählte das Modell automatisch verschiedene Datenverarbeitungstechniken und Trainingsparameter aus einem vordefinierten Werkzeugsatz aus. SEAL erreichte eine Erfolgsrate von 72,5 Prozent verglichen mit 20 Prozent ohne vorheriges Training.

"Katastrophales Vergessen" bleibt ein Problem

Trotz der vielversprechenden Ergebnisse identifizierten die Forschenden mehrere Einschränkungen. Das größte Problem ist das sogenannte "Katastrophale Vergessen". Die Leistung bei früheren Aufgaben nimmt ab, wenn neue Updates hinzugefügt werden. Zudem verursacht das Training erheblichen Rechenaufwand, da jede Bewertung einer Selbstbearbeitung etwa 30 bis 45 Sekunden benötigt.

Heatmap: Modelleistung nach aufeinanderfolgenden Self-Edit-Iterationen auf Passagen 0–7 zeigt sinkende Genauigkeit auf früheren Aufgaben.
Jede Self-Edit-Iteration führt zu abnehmender Modellgenauigkeit auf zuvor gelernten Passagen. | Bild: Zweiger et al.

Antwort auf die drohende Datenmauer

Die Wissenschaftler:innen sehen in SEAL einen wichtigen Schritt zur Bewältigung der prognostizierten "Datenmauer". Damit bezeichnen sie den Punkt, an dem alle verfügbaren menschlich generierten Textdaten für das Training von Spitzenmodellen erschöpft sein werden – in diesem Zusammenhang warnten Forschende bereits vor dem "Modellkollaps". Das Framework könnte den Weg für kontinuierliches Lernen und autonome KI-Systeme ebnen, die sich dynamisch an verändernde Ziele anpassen.

Vielversprechend ist die Aussicht auf selbstlernende Systeme, die neue Informationen wie wissenschaftliche Arbeiten aufnehmen und große Mengen an Erklärungen und Implikationen für sich selbst generieren können. Diese iterative Schleife aus Selbstausdruck und Selbstverfeinerung könnte es Modellen ermöglichen, sich auch bei seltenen oder unterrepräsentierten Themen kontinuierlich zu verbessern.

Empfehlung

Den Quellcode haben die Forschenden auf GitHub zur Verfügung gestellt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein MIT-Forschungsteam hat mit SEAL ein Framework entwickelt, das große Sprachmodelle befähigt, eigenständig synthetische Trainingsdaten zu generieren und sich damit selbst zu optimieren.
  • In Tests zeigte SEAL bessere Ergebnisse als Vergleichsmethoden, etwa bei Textverständnis mit Qwen2.5-7B und Reasoning-Aufgaben mit Llama 3.2-1B, wobei die selbst erzeugten Daten sogar die von GPT-4.1 übertrafen.
  • Als größte Einschränkung gilt das "katastrophale Vergessen", bei dem das Modell frühere Kenntnisse verliert, wenn es neue Aufgaben lernt; zudem ist das Verfahren rechenintensiv.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!