Mistral AI erweitert seinen KI-Assistenten Le Chat um Funktionen wie Websuche und Bildgenerierung. Gleichzeitig stellt das Unternehmen ein neues multimodales Modell vor, das in Benchmarks führende Konkurrenten übertrifft.
Das französische KI-Start-up Mistral AI hat seinen KI-Assistenten Le Chat umfassend erweitert. Wie das Unternehmen mitteilt, erhält der Chatbot Zugriff auf aktuelle Internetinhalte durch eine integrierte Websuche und kann nun auch Bilder generieren.
Die Bildgenerierung erfolgt laut Mistral AI in Zusammenarbeit mit Black Forest Labs, deren Flux-Pro-Modell in Le Chat integriert wurde. Für die Verarbeitung von Dokumenten und Bildern nutzt der Chatbot das ebenfalls neu vorgestellte multimodale Modell Pixtral Large (siehe unten).
Neues Interface für kreative Arbeit
Eine weitere Neuerung ist das sogenannte Canvas-Interface, das es Nutzern ermöglicht, direkt im Chat-Fenster kreativ zu arbeiten. Nach Angaben von Mistral AI können Nutzer damit Dokumente, Präsentationen und Code erstellen sowie Entwürfe bearbeiten, ohne neue Antworten generieren zu müssen.
Le Chat verarbeitet dank Pixtral Large jetzt auch komplexe PDF-Dokumente mit Bildern. Das System kann Grafiken, Tabellen, Diagramme und Formeln analysieren und zusammenfassen.
Die neuen Funktionen in Le Chat werden laut Mistral AI zunächst als kostenlose Beta-Version eingeführt.
Pixtral Large ist beim Bildverständnis auf Augenhöhe mit dem Wettbewerb
Das neue multimodale Modell Pixtral Large, das auf dem Sprachmodell Mistral Large 2 aufbaut, erreicht nach Unternehmensangaben in mehreren Benchmarks Bestwerte.
Im MathVista-Test für mathematisches Reasoning mit visuellen Daten erzielt es 69,4 Prozent und übertrifft damit nach Angaben von Mistral AI Modelle wie GPT-4o und Gemini 1.5 Pro.
Auch bei der Analyse von Diagrammen und Dokumenten (ChartQA und DocVQA) sowie im MM-MT-Bench für realitätsnahe Anwendungsfälle liegt Pixtral Large laut Mistral AI vor Claude 3.5 Sonnet, Gemini 1.5 Pro und GPT-4o.
Das neue Modell besteht aus einem 123 Milliarden Parameter großen multimodalen Decoder und einem eine Milliarde Parameter großen Vision-Encoder. Es kann mit einem 128K-Kontextfenster bis zu 30 hochauflösende Bilder gleichzeitig verarbeiten.
Pixtral Large ist unter zwei verschiedenen Lizenzen bei Hugging Face verfügbar: Für Forschung und Bildung gilt die Mistral Research License (MRL), für kommerzielle Experimente, Tests und den Produktiveinsatz bietet Mistral AI eine kommerzielle Lizenz an.
Parallel dazu erhält auch das Sprachmodell Mistral Large ein Update, das besseres Verständnis für lange Kontexte, einen neuen System-Prompt und präziseres Function Calling bietet. Das Update ist über die Mistral API verfügbar und wird in Kürze auch über Google Cloud und Microsoft Azure verfügbar sein.