Inhalt
summary Zusammenfassung

Ein Forschungsteam von Hugging Face hat mit SmolLM2 ein neues Sprachmodell vorgestellt. Allerdings setzt es keine neuen Maßstäbe, sondern gehört in gewisser Weise zum Pflichtprogramm. 

Anzeige

Der Schlüssel zum Erfolg von SmolLM2 liegt laut Hugging Face in der geschickten Kombination verschiedener Quellen für den 11 Billionen Token großen Datensatz und einem stufenweisen Trainingsprozess.

In der ersten Phase verwendeten die Forscher:innen eine ausgewogene Mischung aus informativen und abwechslungsreichen Webtexten sowie Programmierbeispielen. In späteren Phasen fügten sie spezialisierte Datensätze mit hochwertigen Mathematik- und Programmieraufgaben hinzu.

Flussdiagramm: SmolLM2-Ökosystem mit Datenquellen (Cosmopedia, FineWeb-Edu, etc.), Modellvarianten und Instruction-tuning-Pfaden.
Für die SmolLM2-Modelle hat Hugging Face eigene Datensätze entwickelt und stellt sie Open-Source zur Verfügung. | Bild: Hugging Face

Nach jeder Trainingsphase evaluierten die Wissenschaftler die Leistung des Modells und identifizierten Schwachstellen. Anschließend passten sie die Zusammensetzung der Trainingsdaten an, um diese Lücken zu schließen.

Anzeige
Anzeige

Für diesen Zweck entwickelten sie auch eigene Datensätze: FineMath für anspruchsvolle Mathematikaufgaben, Stack-Edu für gut dokumentierten Programmcode und SmolTalk für Konversation und verwandte Aufgaben.

Spitzenwerte in manchen Benchmarks

Nach dem Vortraining unterzogen die Forschenden SmolLM2 noch weiteren Optimierungsschritten. Durch Finetuning anhand von Anleitungen und Beispielen verbesserten sie die Fähigkeit des Modells, Aufgaben präzise zu verstehen und zu lösen. Mithilfe von Reinforcement Learning trainierten sie es darauf, Antworten zu generieren, die den Präferenzen der Nutzer:innen optimal entsprechen.

In Benchmarks zu Wissens- und Verständnisaufgaben übertrifft SmolLM2 ähnlich große Konkurrenzmodelle wie Qwen2.5-1.5B und Llama3.2-1B – in vielen, aber nicht in allen Bereichen.

Vergleichstabelle: Leistungsdaten der Sprachmodelle SmolLM2, Llama3.2 und Qwen2.5 in verschiedenen Benchmark-Tests, Parameter 1-2B.
In vielen Benchmarks übertrifft das Hugging-Face-Modell die Konkurrenten von Meta und Qwen, schneidet aber etwa bei mathematischer Problemlösung eher schlecht ab. | Bild: Hugging Face

Zusätzlich zu SmolLM2 mit 1,7 Milliarden Parametern trainierte das Forschungsteam zwei kleinere Varianten mit 360 und 135 Millionen Parametern, die in ihrer Größenklasse ebenfalls ordentliche Ergebnisse erzielen.

Hugging Face hat sich mit seinem riesigen Archiv für Modellgewichte als unersetzlicher Bestandteil der quelloffenen KI-Entwicklung etabliert. Doch das Start-up will nicht nur Daten für andere aufbewahren, sondern die Forschung aktiv vorantreiben.

Empfehlung

SmolLM2 ist Pflicht, aber keine Kür

Kürzlich hat das US-Unternehmen, das unter anderem von Google unterstützt wird, eine Bibliothek für KI-Agenten und eine Open-Source-Alternative zu OpenAIs Deep Research veröffentlicht.

SmolLM2 nutzt mit dem hochwertigen Datenmix und dem mehrstufigen Trainingsverfahren bewährte Bausteine für effiziente Sprachmodelle. Es kann ähnlichen Modellen von Meta und Qwen zwar das Wasser reichen, setzt aber nicht völlig neue Maßstäbe. Mit dieser Größenordnung wäre es in der realen Anwendung wahrscheinlich am ehesten für kleinere Aufgaben auf leistungsschwachen Geräten wie Smartphones interessant.

Nichtsdestotrotz gehörte die Entwicklung gewissermaßen zum Pflichtprogramm für einen wichtigen KI-Player wie Hugging Face. Immerhin: Im Gegensatz zu Meta und Qwen, die lediglich die Modellgewichte freigegeben haben, fährt Hugging Face eine konsequente Open-Source-Strategie und stellt anderen auch die genutzten Trainingsdaten zur Verfügung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Hugging Face hat mit SmolLM2 ein neues Sprachmodell vorgestellt, das durch geschickte Kombination verschiedener Datenquellen und einen mehrstufigen Trainingsprozess optimiert wurde. Dabei kamen auch eigens entwickelte Datensätze wie FineMath, Stack-Edu und SmolTalk zum Einsatz.
  • In Benchmarks übertrifft SmolLM2 ähnlich große Konkurrenzmodelle wie Qwen2.5-1.5B und Llama3.2-1B in vielen, aber nicht allen Bereichen. Besonders bei mathematischen Aufgaben schneidet es schlechter ab. Zusätzlich wurden zwei kleinere Varianten mit 360 und 135 Millionen Parametern trainiert.
  • SmolLM2 nutzt bewährte Methoden für effiziente Sprachmodelle, setzt aber keine völlig neuen Maßstäbe. Es gehört zum Pflichtprogramm für einen KI-Player wie Hugging Face, die im Gegensatz zu Meta und Qwen auch die genutzten Trainingsdaten als Open Source zur Verfügung stellen.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!