AI2 veröffentlicht offenen Mega-Datensatz zum Training von Sprachmodellen

Das Allen Institute for AI (AI2) hat Dolma vorgestellt, einen Open-Source-Datensatz mit drei Billionen Token aus einer vielfältigen Sammlung von Webinhalten, wissenschaftlichen Publikationen, Code und Büchern. Es ist das bisher größte öffentlich zugängliche Datensatz seiner Art.

Dolma ist Grundlage des Sprachmodells OLMo (Open Language Model), das sich derzeit bei AI2 in der Entwicklung befindet und Anfang 2024 erscheinen soll. Mit dem Ziel vor Augen, das "beste offene Sprachmodell" zu entwickeln, entstand der riesige Datensatz Dolma (Data to feed OLMo).

Dolma ist der derzeit größte Open-Source-Datensatz und steht ab sofort Entwickler:innen und Wissenschaftler:innen über Hugging Face zur Verfügung. Dort finden sich auch die Werkzeuge, die die Forscher:innen für die Erstellung verwendet haben, um die Reproduzierbarkeit der Ergebnisse zu gewährleisten.

Bereinigung der Daten, größtenteils auf Englisch

Für die Erstellung von Dolma wurden Daten aus verschiedenen Quellen in bereinigte Textdokumente umgewandelt.

In der ersten Version beschränkt sich Dolma weitgehend auf englische Texte. Zur Filterung der Daten wurde ein Spracherkennungsmodell verwendet. Um einen Bias gegen Dialekte von Minderheiten auszugleichen, hat das Team alle Texte übernommen, die vom Modell mit einer Sicherheit von 50 Prozent als englisch klassifiziert wurden. In zukünftigen Versionen sollen weitere Sprachen einbezogen werden.

In weiteren Schritten haben die Forschenden den Datensatz etwa von Duplikaten, minderwertigen Inhalten oder sensiblen Informationen bereinigt und die Qualität der Code-Beispiele verbessert.

Vergleich mit anderen offenen Datensätzen

Ein Großteil des Datensatzes stammt aus dem gemeinnützigen Common-Crawl-Projekt, wobei der Fokus auf Webdaten liegt. Hinzu kommen weitere Webseiten aus der Sammlung C4, akademische Texte von peS20, Code-Schnipsel aus The Stack, Bücher aus Project Gutenberg und die englische Wikipedia.

Das ideale Dataset sollte in den Augen von AI21 mehrere Kriterien erfüllen: Offenheit, Repräsentativität, Größe und Reproduzierbarkeit. Zudem sollten Risiken minimiert werden, insbesondere solche, die Einzelpersonen betreffen könnten.

Vorherige Studien haben gezeigt, dass nicht nur die Parameterzahl des Modells, sondern auch der Umfang des Trainingsmaterials eines Sprachmodells für die Leistung eine zentrale Rolle spielen.

Empfehlung

KI-Forschung

Automatisierte Forschung: The AI Scientist generiert Papers für 15 Dollar pro Stück

Veröffentlichung von Dolma

Der Datensatz wird unter der ImpACT-Lizenz von AI2 als Medium-Risk-Artefakt veröffentlicht. Forschende müssen bestimmte Anforderungen erfüllen, wie etwa die Angabe ihrer Kontaktdaten und dem beabsichtigten Verwendungszweck von Dolma zustimmen. Darüber hinaus wurde ein Mechanismus eingerichtet, um die Entfernung persönlicher Daten auf Anfrage zu ermöglichen.

The license has too many weird clauses to be counted as open-source.

— Narendra Patwardhan (@overlordayn) August 20, 2023

Nach der Vorstellung von Dolma als Open-Source-Datensatz wurden Stimmen von Kritiker:innen laut, die zu viele Klauseln in der Lizenz bemängelten. So sei Dolma zwar öffentlich zugänglich, könne aber nicht als Open Source betrachtet werden. Auch die Bezeichnung des LLaMA-2-Modells als Open Source durch Meta wurde kürzlich von der Open Source Initiative kritisiert.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

AI2 veröffentlicht offenen Mega-Datensatz zum Training von Sprachmodellen

Bereinigung der Daten, größtenteils auf Englisch

Vergleich mit anderen offenen Datensätzen

Automatisierte Forschung: The AI Scientist generiert Papers für 15 Dollar pro Stück

Veröffentlichung von Dolma

Hugging Face erklärt im "Ultra-Scale Playbook", wie man effizient große KI-Modelle trainiert

Forscher sammeln 950.000 Stunden Open-Source-Sprachdaten für EU-Sprachen

US-Copyright-Behörde widerspricht KI-Industrie: Kein generelles Fair Use beim KI-Training

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Umstrittenes KI-Manipulationsexperiment der Universität Zürich auf Reddit endet ohne Paper

AI2 veröffentlicht offenen Mega-Datensatz zum Training von Sprachmodellen

Bereinigung der Daten, größtenteils auf Englisch

Vergleich mit anderen offenen Datensätzen

Automatisierte Forschung: The AI Scientist generiert Papers für 15 Dollar pro Stück

Veröffentlichung von Dolma

Hugging Face erklärt im "Ultra-Scale Playbook", wie man effizient große KI-Modelle trainiert

Forscher sammeln 950.000 Stunden Open-Source-Sprachdaten für EU-Sprachen