Hugging Face veröffentlicht kleines Sprachmodell, das Qwen und Llama meistens schlägt

Ein Forschungsteam von Hugging Face hat mit SmolLM2 ein neues Sprachmodell vorgestellt. Allerdings setzt es keine neuen Maßstäbe, sondern gehört in gewisser Weise zum Pflichtprogramm.

Der Schlüssel zum Erfolg von SmolLM2 liegt laut Hugging Face in der geschickten Kombination verschiedener Quellen für den 11 Billionen Token großen Datensatz und einem stufenweisen Trainingsprozess.

In der ersten Phase verwendeten die Forscher:innen eine ausgewogene Mischung aus informativen und abwechslungsreichen Webtexten sowie Programmierbeispielen. In späteren Phasen fügten sie spezialisierte Datensätze mit hochwertigen Mathematik- und Programmieraufgaben hinzu.

Flussdiagramm: SmolLM2-Ökosystem mit Datenquellen (Cosmopedia, FineWeb-Edu, etc.), Modellvarianten und Instruction-tuning-Pfaden. — Für die SmolLM2-Modelle hat Hugging Face eigene Datensätze entwickelt und stellt sie Open-Source zur Verfügung. | Bild: Hugging Face

Nach jeder Trainingsphase evaluierten die Wissenschaftler die Leistung des Modells und identifizierten Schwachstellen. Anschließend passten sie die Zusammensetzung der Trainingsdaten an, um diese Lücken zu schließen.

Für diesen Zweck entwickelten sie auch eigene Datensätze: FineMath für anspruchsvolle Mathematikaufgaben, Stack-Edu für gut dokumentierten Programmcode und SmolTalk für Konversation und verwandte Aufgaben.

Spitzenwerte in manchen Benchmarks

Nach dem Vortraining unterzogen die Forschenden SmolLM2 noch weiteren Optimierungsschritten. Durch Finetuning anhand von Anleitungen und Beispielen verbesserten sie die Fähigkeit des Modells, Aufgaben präzise zu verstehen und zu lösen. Mithilfe von Reinforcement Learning trainierten sie es darauf, Antworten zu generieren, die den Präferenzen der Nutzer:innen optimal entsprechen.

In Benchmarks zu Wissens- und Verständnisaufgaben übertrifft SmolLM2 ähnlich große Konkurrenzmodelle wie Qwen2.5-1.5B und Llama3.2-1B – in vielen, aber nicht in allen Bereichen.

Vergleichstabelle: Leistungsdaten der Sprachmodelle SmolLM2, Llama3.2 und Qwen2.5 in verschiedenen Benchmark-Tests, Parameter 1-2B. — In vielen Benchmarks übertrifft das Hugging-Face-Modell die Konkurrenten von Meta und Qwen, schneidet aber etwa bei mathematischer Problemlösung eher schlecht ab. | Bild: Hugging Face

Zusätzlich zu SmolLM2 mit 1,7 Milliarden Parametern trainierte das Forschungsteam zwei kleinere Varianten mit 360 und 135 Millionen Parametern, die in ihrer Größenklasse ebenfalls ordentliche Ergebnisse erzielen.

Hugging Face hat sich mit seinem riesigen Archiv für Modellgewichte als unersetzlicher Bestandteil der quelloffenen KI-Entwicklung etabliert. Doch das Start-up will nicht nur Daten für andere aufbewahren, sondern die Forschung aktiv vorantreiben.

Empfehlung

KI-Forschung

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

SmolLM2 ist Pflicht, aber keine Kür

Kürzlich hat das US-Unternehmen, das unter anderem von Google unterstützt wird, eine Bibliothek für KI-Agenten und eine Open-Source-Alternative zu OpenAIs Deep Research veröffentlicht.

SmolLM2 nutzt mit dem hochwertigen Datenmix und dem mehrstufigen Trainingsverfahren bewährte Bausteine für effiziente Sprachmodelle. Es kann ähnlichen Modellen von Meta und Qwen zwar das Wasser reichen, setzt aber nicht völlig neue Maßstäbe. Mit dieser Größenordnung wäre es in der realen Anwendung wahrscheinlich am ehesten für kleinere Aufgaben auf leistungsschwachen Geräten wie Smartphones interessant.

Nichtsdestotrotz gehörte die Entwicklung gewissermaßen zum Pflichtprogramm für einen wichtigen KI-Player wie Hugging Face. Immerhin: Im Gegensatz zu Meta und Qwen, die lediglich die Modellgewichte freigegeben haben, fährt Hugging Face eine konsequente Open-Source-Strategie und stellt anderen auch die genutzten Trainingsdaten zur Verfügung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Hugging Face veröffentlicht kleines Sprachmodell, das Qwen und Llama meistens schlägt

Spitzenwerte in manchen Benchmarks

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

SmolLM2 ist Pflicht, aber keine Kür

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

Hugging Face stellt experimentellen KI-Agenten für Computernutzung vor

Hugging Face will mit Open-Source-Robotern die Branche umkrempeln

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Hugging Face veröffentlicht kleines Sprachmodell, das Qwen und Llama meistens schlägt

Spitzenwerte in manchen Benchmarks

SmolLM2 ist Pflicht, aber keine Kür

Artikel teilen

Bankverbindung