Inhalt
summary Zusammenfassung

Es klingt paradox, doch eine neue Studie von MIT-Forschenden unterstreicht eine Annahme, die bereits in den letzten Jahren immer wieder auftaucht: Weniger Daten können tatsächlich zu besseren Sprachmodellen führen.

Anzeige

Das Team hat eine Technik entwickelt, bei der kleine KI-Modelle nur die nützlichsten Teile von Trainingsdatensätzen auswählen. Diese ausgewählten Daten haben sie dann verwendet, um viel größere Modelle zu trainieren. Sie beobachteten, dass die Sprachmodelle sowohl in Benchmarks besser abschneiden als auch weniger Trainingsschritte benötigen.

Der Ansatz, der als "perplexity-based data pruning" bezeichnet wird, lässt das kleinere Modell jedem Trainingsdatensatz einen Perplexitätswert zuweisen. Perplexität ist ein Maß dafür, wie "überrascht" das Modell von einem bestimmten Beispiel ist. Die Idee dahinter ist, dass die überraschendsten Beispiele die meisten Informationen enthalten und somit potenziell am nützlichsten für das Training des Modells sind.

Unterschiedliche Ansätze für verschiedene Arten von Trainigsdaten

In Experimenten verwendeten die Forschenden ein vergleichsweise kleines Modell mit 125 Millionen Parametern, um Trainingsdaten für Modelle zu reduzieren, die mehr als 30 Mal so groß sind.

Anzeige
Anzeige

Die großen Modelle, die mit diesen reduzierten Daten trainiert wurden, übertrafen die Basismodelle, die mit den vollständigen Datensätzen trainiert wurden, deutlich. In einem Test steigerte das Pruning die Genauigkeit eines Modells mit drei Milliarden Parametern um mehr als zwei Prozentpunkte.

Bild: Ankner et al.

Interessanterweise stellten sie fest, dass verschiedene Datensätze von unterschiedlichen Pruning-Ansätzen profitieren, je nach Zusammensetzung der Daten. Sie empfehlen daher, die Wahl der Methode an den jeweiligen Datensatz anzupassen.

Die MIT-Forscher sehen ihre Arbeit als einen wichtigen Schritt, um die Datenreduktion zu einem Standardbestandteil des KI-Trainings zu machen, und bestätigen frühere Forschungsergebnisse, dass mehr Daten nicht zwangsläufig zu besseren Sprachmodellen führen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende des MIT haben eine Technik entwickelt, bei der kleine KI-Modelle die nützlichsten Teile von Trainingsdatensätzen auswählen, um damit größere Modelle zu trainieren. Die so trainierten Modelle schneiden in Benchmarks besser ab und benötigen weniger Trainingsschritte.
  • Der Ansatz, genannt "perplexity-based data pruning", lässt das kleinere Modell jedem Trainingsdatensatz einen Perplexitätswert zuweisen. Dabei wird angenommen, dass die überraschendsten Beispiele mit hoher Perplexität die meisten Informationen enthalten und somit am nützlichsten für das Training sind.
  • Experimente zeigten, dass verschiedene Datensätze von unterschiedlichen Pruning-Ansätzen profitierten. Die Arbeit soll dazu beitragen, Datenreduzierung zu einem Standardteil des KI-Trainings zu machen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!