Das französische KI-Unternehmen Mistral hat auf seiner Konferenz in San Francisco sein erstes multimodales Modell namens Pixtral-12B vorgestellt. Das Open-Source-Modell kann sowohl Bilder als auch Text verarbeiten.
Mit 12 Milliarden Parametern und einer Größe von etwa 24 GB baut Pixtral auf Mistrals Textmodell NeMo-12B auf, das diesen Sommer eingeführt wurde. Pixtral kann Fragen zu mehreren Bildern beantworten, die als URLs oder Base64-kodierte Bilder eingegeben werden. Ein spezieller Vision-Encoder unterstützt Bildauflösungen bis 1.024 x 1.024 Pixel.
Knappes Rennen in Benchmarks
Laut Mistral zeichnet sich Pixtral-12B gegenüber anderen quelloffenen Vision-Modellen unter anderem dadurch aus, verschiedene Bildgrößen und Kontextlängen zu unterstützen. In Benchmarks soll das Modell Konkurrenten wie Phi 3, Qwen2 VL und LLaVA übertreffen. Zumindest teilweise und zumindest dann, wenn es um die multimodalen Fähigkeiten geht. Geschlossene, viel größere Modelle wie Claude 3.5 Sonnet oder GPT-4o schneiden beim Bildverständnis jedoch noch weit besser ab.
In einigen Tests schneidet Pixtral deutlich besser ab als ähnliche Modelle. In manchen, wie etwa MMLU und HumanEval, wichtigen Benchmarks zum Textverständnis, liegt das kleinste Anthropic-Modell Claude 3 Haiku knapp vorn. Auch die kleineren und nur auf Vision optimierten kürzlich erschienenen Qwen2-VL 7B und Phi 3.5 Vision übertreffen Pixtral in einigen Vision-Benchmarks.
Mistral berichtet, dass Pixtral unter anderem optische Zeichenerkennung (OCR), Diagramm- und Schemaanalyse sowie die Verarbeitung von Screenshots beherrscht. Auch bei Satellitenbildern soll das Modell gute Ergebnisse liefern. An Video-Frames habe man Pixtral bisher nicht getestet, man gehe aber davon aus, dass dies angesichts des Kontextfensters von 128.000 Token funktioniere.
Bald auch im Chatbot "Le Chat"
Mistral hat Pixtral-12B unter einer Apache-2.0-Lizenz zur freien Nutzung veröffentlicht. Das Modell ist derzeit über GitHub und Hugging Face verfügbar. Laut Sophia Yang, Leiterin der Entwicklerbeziehungen bei Mistral, soll Pixtral-12B bald auch auf Mistrals eigenen Plattformen Le Chat und La Plateforme getestet werden können.
Die Veröffentlichung folgt auf eine kürzlich beendete Finanzierungsrunde von 645 Millionen Dollar, die Mistral mit sechs Milliarden Dollar bewertete. Microsoft, das auch eng mit OpenAI verbündet ist, hält eine Minderheitsbeteiligung an dem französischen Unternehmen. Auch Amazon bzw. AWS pflegt eine Partnerschaft mit Mistral.
Mistral hat Pixtral-12B zwar wie gewohnt schnell der Öffentlichkeit zugänglich gemacht, über Hintergründe wie Trainingsdaten verlor das Start-up jedoch bislang kein Wort. Die tatsächliche Leistungsfähigkeit bleibt, abgesehen von den Hersteller-Benchmarks, ebenfalls abzuwarten.