Mistral veröffentlicht LLM Small 3 unter Apache-Lizenz und kündigt Reasoning-Modell an

Das Sprachmodell Mistral Small 3 erreicht in Benchmarks ähnliche Leistungen wie größere Modelle von Meta, Qwen und OpenAI. Mit der Veröffentlichung steigt Mistral auf die Apache-2.0-Lizenz um, die Nutzer:innen mehr Freiheiten einräumt.

Das französische KI-Startup Mistral AI hat mit Small 3 ein neues Sprachmodell mit 24 Milliarden Parametern veröffentlicht. Das Modell wurde laut Mistral für eine geringe Latenz optimiert und eignet sich damit besonders für den lokalen Einsatz. Die vorangegangene Version erschien im September 2024.

Streudiagramm: Performance/MMLU-Pro vs. Latenz für verschiedene LLM-Modelle, mit Mistral Small 3, GPT-4o Mini, Gemma-2 27B und Qwen-2.5 32B. — Die Performance-Analyse verschiedener LLM-Modelle zeigt einen interessanten Trade-off zwischen Geschwindigkeit und Leistung. | Bild: Mistral

In Benchmarks erreichte Mistral Small 3 trotz der geringeren Parameterzahl ähnliche Ergebnisse wie die teilweise drei Mal so großen Modelle Llama-3.3-70B von Meta, Qwen2.5-32B und GPT-4o-mini. Auch in Evaluierungen durch externe Gutachter:innen mit Coding- und allgemeinen Prompts schnitt es laut Angaben von Mistral gut ab.

Bei Instruktionsaufgaben war die Leistung von Mistral Small 3 mit Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct und Gemma-2-27B-IT vergleichbar. Beim Pretraining zeigte es in seiner Größenklasse ebenfalls eine Leistung auf dem Niveau von Llama-3.3-70B.

Balkendiagramm: Performance-Vergleich von 5 KI-Modellen in MMLU Pro und GPQA main Tests, Accuracy-Werte zwischen 0.3 und 0.7. — Im Vergleich verschiedener Sprachmodelle zeigt Mistral-Small-24B die eine starke Performance beim MMLU-Benchmark, während Llama-3.3-70B beim GPQA-Test deutlich führend ist. | Bild: Mistral

Säulendiagramm: Vergleich von 5 KI-Modellen anhand ihrer Genauigkeit bei HumanEval und Math Instruct Benchmarks. — In Benchmarks, die auf Coding und Mathe-Aufgaben ausgelegt sind, zeigt Mistral Small ähnliche Ergebnisse zu deutlich größeren Modellen. | Bild: Mistral

Balkendiagramm: Vergleich von 5 KI-Sprachmodellen anhand von 4 Benchmark-Tests (Wildbench, Arena Hard, MTBench, IFEval), Genauigkeit in Prozent. — In diesen Benchmarks werden unter anderem die Fähigkeiten abgefragt, wie gut die Modelle Anweisungen befolgen und Informationen im "Gedächtnis" behalten. | Bild: Mistral

Mit einer Genauigkeit von 81 Prozent bei MMLU und einer Latenz von 150 Token pro Sekunde ist Mistral Small 3 laut Mistral aktuell eines der effizientesten Modelle dieser Kategorie.

Verschiedene Anwendungsmöglichkeiten in Unternehmen und für Entwickler

Mistral sieht für das Modell Einsatzmöglichkeiten wie schnelle Antworten in Chats, Funktionsaufrufe, das Finetuning für spezifische Domänen sowie die lokale Inferenz auf einzelnen GPUs.

Unternehmen aus den Bereichen Finanzen, Gesundheitswesen, Robotik und Fertigung evaluieren Mistral Small 3 bereits für Anwendungen wie Betrugserkennung, Kundensupport oder Sentiment-Analyse. Entwickler:innen können das Modell als Basis für eigene Anpassungen und zur Integration von Reasoning-Fähigkeiten nutzen.

Mistral Small 3 kann ab sofort unter der Apache-2.0-Lizenz auf der Plattform von Mistral sowie bei Partnern wie Hugging Face, Ollama, Kaggle, Together AI und Fireworks AI heruntergeladen werden. Die Unterstützung weiterer Plattformen ist in Planung.

Umstellung von MRL- auf Apache-Lizenz und geplante Weiterentwicklungen

Mit Mistral Small 3 vollzieht Mistral bei seinen allgemeinen Sprachmodellen einen Wechsel von der bisher verwendeten, proprietären MRL-Lizenz (Mistral Research License) zur freien Apache-2.0-Lizenz. Damit sind die Modelle auch für kommerzielle Anwendungen frei nutzbar, modifizierbar und weiterverteilbar. Für spezielle Anforderungen will das Unternehmen weiterhin kommerzielle Modelle anbieten.

Empfehlung

KI-Forschung

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Für die kommenden Wochen kündigt Mistral die Veröffentlichung weiterer kleiner und großer Modelle mit verbesserten Reasoning-Fähigkeiten an.

Mistral Small 3 versteht sich als Ergänzung zu größeren Open-Source-Modellen mit Reasoning-Fähigkeiten, wie sie zuletzt etwa von Deepseek veröffentlicht wurden. Es kann als Basis dienen, um ähnliche Fähigkeiten mit effizienteren Architekturen in kleineren Modellen zu realisieren.

Über die letzten Monate hat sich Mistral als wichtiger europäischer Vertreter von quelloffener KI-Entwicklung etabliert. Zwar sind die Modelle bisher nicht ganz auf Niveau eines omnimodalen GPT-4o, nach Veröffentlichung von Pixtral, seinem ersten Sprachmodell mit Bildverständnis, scheint das Start-up aber auf einem guten Weg. Diese Neuerungen sind nicht nur für Entwickler:innen spannend, über den Chatbot Le Chat finden die Modelle auch ihren Weg zu Endnutzer:innen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mistral veröffentlicht LLM Small 3 unter Apache-Lizenz und kündigt Reasoning-Modell an

Verschiedene Anwendungsmöglichkeiten in Unternehmen und für Entwickler

Umstellung von MRL- auf Apache-Lizenz und geplante Weiterentwicklungen

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

ASML wird größter Anteilseigner von Mistral AI

Mistral integriert MCP-Unterstützung und Memory in Le Chat

Mistral AI stattet Le Chat mit Deep Research, Sprachmodus und Bildbearbeitung aus

OpenAI entdeckt nach Sora-App-Launch plötzlich das Urheberrecht

OpenAI launcht neues Videomodell Sora 2 mit Sound und Social-App

Laut Google Deepmind können Videomodelle wie Veo 3 Generalisten für visuelle Aufgaben werden

Mistral veröffentlicht LLM Small 3 unter Apache-Lizenz und kündigt Reasoning-Modell an

Verschiedene Anwendungsmöglichkeiten in Unternehmen und für Entwickler

Umstellung von MRL- auf Apache-Lizenz und geplante Weiterentwicklungen

Artikel teilen

Bankverbindung