Inhalt
summary Zusammenfassung

Das französische KI-Unternehmen Mistral hat auf seiner Konferenz in San Francisco sein erstes multimodales Modell namens Pixtral-12B vorgestellt. Das Open-Source-Modell kann sowohl Bilder als auch Text verarbeiten.

Mit 12 Milliarden Parametern und einer Größe von etwa 24 GB baut Pixtral auf Mistrals Textmodell NeMo-12B auf, das diesen Sommer eingeführt wurde. Pixtral kann Fragen zu mehreren Bildern beantworten, die als URLs oder Base64-kodierte Bilder eingegeben werden. Ein spezieller Vision-Encoder unterstützt Bildauflösungen bis 1.024 x 1.024 Pixel.

Knappes Rennen in Benchmarks

Laut Mistral zeichnet sich Pixtral-12B gegenüber anderen quelloffenen Vision-Modellen unter anderem dadurch aus, verschiedene Bildgrößen und Kontextlängen zu unterstützen. In Benchmarks soll das Modell Konkurrenten wie Phi 3, Qwen2 VL und LLaVA übertreffen. Zumindest teilweise und zumindest dann, wenn es um die multimodalen Fähigkeiten geht. Geschlossene, viel größere Modelle wie Claude 3.5 Sonnet oder GPT-4o schneiden beim Bildverständnis jedoch noch weit besser ab.

Bild: swyx/X

In einigen Tests schneidet Pixtral deutlich besser ab als ähnliche Modelle. In manchen, wie etwa MMLU und HumanEval, wichtigen Benchmarks zum Textverständnis, liegt das kleinste Anthropic-Modell Claude 3 Haiku knapp vorn. Auch die kleineren und nur auf Vision optimierten kürzlich erschienenen Qwen2-VL 7B und Phi 3.5 Vision übertreffen Pixtral in einigen Vision-Benchmarks.

Bild: swyx/X

Mistral berichtet, dass Pixtral unter anderem optische Zeichenerkennung (OCR), Diagramm- und Schemaanalyse sowie die Verarbeitung von Screenshots beherrscht. Auch bei Satellitenbildern soll das Modell gute Ergebnisse liefern. An Video-Frames habe man Pixtral bisher nicht getestet, man gehe aber davon aus, dass dies angesichts des Kontextfensters von 128.000 Token funktioniere.

Bild: swyx/X

Bald auch im Chatbot "Le Chat"

Mistral hat Pixtral-12B unter einer Apache-2.0-Lizenz zur freien Nutzung veröffentlicht. Das Modell ist derzeit über GitHub und Hugging Face verfügbar. Laut Sophia Yang, Leiterin der Entwicklerbeziehungen bei Mistral, soll Pixtral-12B bald auch auf Mistrals eigenen Plattformen Le Chat und La Plateforme getestet werden können.

Die Veröffentlichung folgt auf eine kürzlich beendete Finanzierungsrunde von 645 Millionen Dollar, die Mistral mit sechs Milliarden Dollar bewertete. Microsoft, das auch eng mit OpenAI verbündet ist, hält eine Minderheitsbeteiligung an dem französischen Unternehmen. Auch Amazon bzw. AWS pflegt eine Partnerschaft mit Mistral.

Mistral hat Pixtral-12B zwar wie gewohnt schnell der Öffentlichkeit zugänglich gemacht, über Hintergründe wie Trainingsdaten verlor das Start-up jedoch bislang kein Wort. Die tatsächliche Leistungsfähigkeit bleibt, abgesehen von den Hersteller-Benchmarks, ebenfalls abzuwarten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das französische KI-Start-up Mistral hat sein erstes multimodales Modell Pixtral-12B vorgestellt, das sowohl Bilder als auch Text verarbeiten kann. Mit 12 Milliarden Parametern baut es auf Mistrals Textmodell NeMo-12B auf.
  • In Benchmarks übertrifft Pixtral-12B teilweise andere quelloffene Vision-Modelle wie Phi 3, Qwen2 VL und LLaVA, bleibt aber hinter geschlossenen, größeren Modellen wie Claude 3.5 Sonnet oder GPT-4o zurück. Es beherrscht unter anderem OCR, Diagrammanalyse und die Verarbeitung von Screenshots.
  • Mistral hat Pixtral-12B unter einer Apache-2.0-Lizenz veröffentlicht und plant, es bald auf den eigenen Plattformen Le Chat und La Plateforme zu testen. Details zu Trainingsdaten sind nicht bekannt, und die tatsächliche Leistung muss sich außerhalb von Benchmarks in echten Aufgaben beweisen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!