Skip to content

Pixtral: Mistral veröffentlicht erstes Modell mit Bildverständnis

Image description
MIstral AI

Das französische KI-Unternehmen Mistral hat auf seiner Konferenz in San Francisco sein erstes multimodales Modell namens Pixtral-12B vorgestellt. Das Open-Source-Modell kann sowohl Bilder als auch Text verarbeiten.

Mit 12 Milliarden Parametern und einer Größe von etwa 24 GB baut Pixtral auf Mistrals Textmodell NeMo-12B auf, das diesen Sommer eingeführt wurde. Pixtral kann Fragen zu mehreren Bildern beantworten, die als URLs oder Base64-kodierte Bilder eingegeben werden. Ein spezieller Vision-Encoder unterstützt Bildauflösungen bis 1.024 x 1.024 Pixel.

Knappes Rennen in Benchmarks

Laut Mistral zeichnet sich Pixtral-12B gegenüber anderen quelloffenen Vision-Modellen unter anderem dadurch aus, verschiedene Bildgrößen und Kontextlängen zu unterstützen. In Benchmarks soll das Modell Konkurrenten wie Phi 3, Qwen2 VL und LLaVA übertreffen. Zumindest teilweise und zumindest dann, wenn es um die multimodalen Fähigkeiten geht. Geschlossene, viel größere Modelle wie Claude 3.5 Sonnet oder GPT-4o schneiden beim Bildverständnis jedoch noch weit besser ab.

Bild: swyx/X

In einigen Tests schneidet Pixtral deutlich besser ab als ähnliche Modelle. In manchen, wie etwa MMLU und HumanEval, wichtigen Benchmarks zum Textverständnis, liegt das kleinste Anthropic-Modell Claude 3 Haiku knapp vorn. Auch die kleineren und nur auf Vision optimierten kürzlich erschienenen Qwen2-VL 7B und Phi 3.5 Vision übertreffen Pixtral in einigen Vision-Benchmarks.

Bild: swyx/X

Mistral berichtet, dass Pixtral unter anderem optische Zeichenerkennung (OCR), Diagramm- und Schemaanalyse sowie die Verarbeitung von Screenshots beherrscht. Auch bei Satellitenbildern soll das Modell gute Ergebnisse liefern. An Video-Frames habe man Pixtral bisher nicht getestet, man gehe aber davon aus, dass dies angesichts des Kontextfensters von 128.000 Token funktioniere.

Bild: swyx/X

Bald auch im Chatbot "Le Chat"

Mistral hat Pixtral-12B unter einer Apache-2.0-Lizenz zur freien Nutzung veröffentlicht. Das Modell ist derzeit über GitHub und Hugging Face verfügbar. Laut Sophia Yang, Leiterin der Entwicklerbeziehungen bei Mistral, soll Pixtral-12B bald auch auf Mistrals eigenen Plattformen Le Chat und La Plateforme getestet werden können.

Die Veröffentlichung folgt auf eine kürzlich beendete Finanzierungsrunde von 645 Millionen Dollar, die Mistral mit sechs Milliarden Dollar bewertete. Microsoft, das auch eng mit OpenAI verbündet ist, hält eine Minderheitsbeteiligung an dem französischen Unternehmen. Auch Amazon bzw. AWS pflegt eine Partnerschaft mit Mistral.

Mistral hat Pixtral-12B zwar wie gewohnt schnell der Öffentlichkeit zugänglich gemacht, über Hintergründe wie Trainingsdaten verlor das Start-up jedoch bislang kein Wort. Die tatsächliche Leistungsfähigkeit bleibt, abgesehen von den Hersteller-Benchmarks, ebenfalls abzuwarten.

KI-News ohne Hype – von Menschen kuratiert
asd Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: swyx | TechCrunch

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren