Inhalt
summary Zusammenfassung

Ein neuer Datensatz, FineWeb-Edu, zeigt, wie wichtig qualitativ hochwertige Lerninhalte für die Leistung großer Sprachmodelle sind.

Anzeige

Fineweb-Edu ist ein neuer, qualitativ hochwertiger Hugging-Face-Datensatz für das Training von Large Language Models (LLMs). Er basiert auf Fineweb, einem großen Web-Datensatz mit 15 Billionen Token, der aus 96 CommonCrawl-Snapshots gewonnen wurde.

Mit Hilfe eines Klassifikators, der mit den Ergebnissen der Bewertung von FineWeb-Artikeln durch ein Llama-3-70B-Instruct-Modell trainiert wurde, filterten die Forscherinnen und Forscher von Hugging Face Fineweb nach Bildungsinhalten und erstellten so Fineweb-Edu.

Nur Textdaten mit einem Bildungswert von mindestens 3 auf einer Skala von 1 bis 5 wurden in FineWeb-Edu aufgenommen. Dieser gefilterte Datensatz enthält noch 1,3 Billionen Token, weniger als ein Zehntel des ursprünglichen Datensatzes.

Anzeige
Anzeige

Die Wissenschaftler trainierten verschiedene LLMs mit 1,82 Milliarden Parametern auf jeweils 350 Milliarden Token mit FineWeb-Edu und anderen Datensätzen und verglichen die Leistung der Modelle in verschiedenen Benchmarks.

Das Ergebnis: FineWeb-Edu übertrifft den ungefilterten FineWeb-Datensatz und alle anderen öffentlichen Web-Datensätze deutlich, insbesondere bei Aufgaben, die Wissen und logisches Denken erfordern.

Ein kleines Testmodell, das mit FineWeb-Edu vortrainiert wurde, schlägt Modelle, die mit anderen Datensätzen trainiert wurden, deutlich. | Bild: Hugging Face

Um die gleiche Leistung wie FineWeb-Edu zu erreichen, benötigen andere Datensätze wie C4 oder Dolma bis zu zehnmal mehr Trainingsdaten. Das zeigt einmal mehr, wie effektiv es ist, sich auf qualitativ hochwertige Bildungsdaten zu konzentrieren.

Auch Microsoft hat mit der Forschungsarbeit "Textbooks is all you need" und den kleinen Phi-Modellen bereits gezeigt, dass qualitativ bessere Trainingsdaten die Leistung von Sprachmodellen verbessern können. Allerdings machte Microsoft seinen Klassifikator und Datensatz nicht öffentlich.

Datensätze für KI-Training: Qualität schlägt Quantität

Der KI-Experte Andrej Karpathy teilt diese Einschätzung: Die durchschnittliche Website im Internet sei so willkürlich und schrecklich, dass nicht einmal klar sei, wie frühere LLMs überhaupt etwas davon lernen konnten, so Karpathy.

Empfehlung

"Man könnte meinen, dass es sich um zufällige Artikel handelt, aber das ist nicht der Fall. Es handelt sich um seltsamen Datenmüll, Werbespam und SEO, Terabytes von Börsenticker-Updates usw. Und dann sind da noch die Diamanten. Die Herausforderung besteht darin, sie herauszufiltern", schreibt Karpathy.

Die Forschenden hoffen, die Erkenntnisse aus FineWeb-Edu in Zukunft auch auf andere Sprachen anwenden zu können, um qualitativ hochwertige Webdaten für verschiedene Sprachräume zugänglich zu machen.

Neben dem nach Bildungswert gefilterten Datensatz mit 1,3 Billionen Token (sehr hoher Bildungsgehalt) stellen die Forschenden auch eine weniger stark gefilterte Variante mit 5,4 Billionen Token (hoher Bildungsgehalt) bei Hugging Face zur Verfügung. Beide Datensätze sind frei zugänglich, zudem beschreiben die Forschenden ausführlich ihre Systematik bei der Zusammenstellung des Datensatzes.

In Zukunft könnte beim KI-Training also Datenqualität und Vielfalt Priorität vor schierer Masse haben. Ergänzend könnten synthetische generierte Daten mit menschlicher Qualitätssicherung gezielt Lücken in den Datensätzen stopfen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Diese Erkenntnis erklärt auch, warum OpenAI und andere LLM-Entwickler so sehr an Vereinbarungen mit etablierten Verlagen interessiert sind. Sie erhoffen sich dadurch Zugang zu hochwertigen Datenquellen wie Lehrbüchern, Zeitungsartikeln oder wissenschaftlichen Publikationen, die das Training ihrer Modelle verbessern können. Dieses Material wurde zum Teil bereits für GPT-4 und Co. verwendet, allerdings ohne Erlaubnis.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Hugging Face haben den neuen Datensatz FineWeb-Edu erstellt, der qualitativ hochwertige Lerninhalte aus dem großen Webdatensatz FineWeb herausfiltert und nur Textdaten mit einem Bildungswert von mindestens 3 auf einer Skala von 1 bis 5 enthält.
  • Sprachmodelle, die auf FineWeb-Edu trainiert wurden, übertreffen Modelle, die auf ungefilterten Webdatensätzen wie C4 oder Dolma trainiert wurden, insbesondere bei Aufgaben, die Wissen und logisches Denken erfordern. Dabei benötigen sie bis zu zehnmal weniger Trainingsdaten.
  • Die Ergebnisse unterstreichen die Bedeutung der Datenqualität gegenüber der Datenmenge beim Training von Sprachmodellen. Sie erklären das Interesse von LLM-Entwicklern an Vereinbarungen mit etablierten Verlagen, um Zugang zu qualitativ hochwertigen Datenquellen wie Zeitungsartikeln oder wissenschaftlichen Publikationen zu erhalten.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!