Inhalt
summary Zusammenfassung

Das französische KI-Start-up Mistral AI hat mit Mixtral 8x22B ein neues Open-Source-Sprachmodell vorgestellt, das in puncto Performance und Effizienz Open-Source-Bestwerte erreicht.

Anzeige

Das Modell ist ein sogenanntes Sparse Mixture-of-Experts (SMoE) Modell, das von 141 Milliarden Parametern nur 39 Milliarden aktiv nutzt.

Damit bietet es nach Angaben des Entwicklerteams ein für seine Größe besonders gutes Kosten-Nutzen-Verhältnis. Bereits das Vorgängermodell Mixtral 8x7B wurde von der Open-Source-Community sehr positiv aufgenommen.

Zu den Stärken von Mixtral 8x22B sollen die Mehrsprachigkeit mit Englisch, Französisch, Italienisch, Deutsch und Spanisch sowie ausgeprägte Fähigkeiten in Mathematik und Programmierung zählen.

Anzeige
Anzeige

Zudem bietet es natives "Function Calling", um externe Werkzeuge einzusetzen. Das Kontextfenster ist mit 64.000 Token kleiner als bei derzeit führenden kommerziellen Modellen wie GPT-4 (128K) oder Claude 3 (200K).

Open Source ohne Einschränkungen

Das Team von Mistral setzt bei der Veröffentlichung von Mixtral 8x22B auf maximale Offenheit unter der Apache 2.0-Lizenz, der permissivsten Open-Source-Lizenz. Sie erlaubt die uneingeschränkte Nutzung des Modells.

Durch den Sparse-Einsatz aktiver Parameter sei es schneller als herkömmliche dicht trainierte 70-Milliarden-Modelle und gleichzeitig leistungsfähiger als andere Open-Source-Modelle, so Mistral.

Bild: Mistral AI

Die Verfügbarkeit des Basismodells mache es zudem zu einer guten Ausgangsbasis für Fine-Tuning-Anwendungen. Das Modell benötigt 258 Gigabyte VRAM.

Im Vergleich zu anderen offenen Modellen erzielt Mixtral 8x22B die besten Ergebnisse in den gängigen Verständnis-, Logik- und Wissenstests wie MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA und NaturalQS.

Empfehlung

Auch in den unterstützten Fremdsprachen Französisch, Deutsch, Spanisch und Italienisch übertrifft es das LLaMA-2-Modell mit 70 Milliarden Parametern in den Benchmarks HellaSwag, Arc Challenge und MMLU deutlich.

Bild: Mistral AI

Das neue Modell kann ab sofort auf Mistrals "la Plateforme" getestet werden. Die Open-Source-Variante ist bei Hugging Face verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das französische Start-up Mistral AI hat mit Mixtral 8x22B ein neues Open-Source-Sprachmodell vorgestellt. Es nutzt von den 141 Milliarden Parametern nur 39 Milliarden aktiv und erreicht dadurch ein gutes Kosten-Nutzen-Verhältnis.
  • Zu den Stärken des mehrsprachigen Modells zählen besonders ausgeprägte Fähigkeiten in Mathematik und Programmierung sowie natives "Function Calling". Mit 64.000 Token ist das Kontextfenster jedoch kleiner als bei führenden kommerziellen Modellen.
  • In gängigen Benchmarks für Verständnis, Logik und Wissen sowie in den unterstützten Fremdsprachen erzielt Mixtral 8x22B Bestwerte im Vergleich zu anderen Open-Source-Modellen. Es ist ab sofort auf Mistrals Plattform und als Open-Source-Variante bei Hugging Face verfügbar.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!