Inhalt
summary Zusammenfassung

Mistral AI erweitert seinen KI-Assistenten Le Chat um Funktionen wie Websuche und Bildgenerierung. Gleichzeitig stellt das Unternehmen ein neues multimodales Modell vor, das in Benchmarks führende Konkurrenten übertrifft.

Anzeige

Das französische KI-Start-up Mistral AI hat seinen KI-Assistenten Le Chat umfassend erweitert. Wie das Unternehmen mitteilt, erhält der Chatbot Zugriff auf aktuelle Internetinhalte durch eine integrierte Websuche und kann nun auch Bilder generieren.

Die Bildgenerierung erfolgt laut Mistral AI in Zusammenarbeit mit Black Forest Labs, deren Flux-Pro-Modell in Le Chat integriert wurde. Für die Verarbeitung von Dokumenten und Bildern nutzt der Chatbot das ebenfalls neu vorgestellte multimodale Modell Pixtral Large (siehe unten).

Neues Interface für kreative Arbeit

Eine weitere Neuerung ist das sogenannte Canvas-Interface, das es Nutzern ermöglicht, direkt im Chat-Fenster kreativ zu arbeiten. Nach Angaben von Mistral AI können Nutzer damit Dokumente, Präsentationen und Code erstellen sowie Entwürfe bearbeiten, ohne neue Antworten generieren zu müssen.

Anzeige
Anzeige

Le Chat verarbeitet dank Pixtral Large jetzt auch komplexe PDF-Dokumente mit Bildern. Das System kann Grafiken, Tabellen, Diagramme und Formeln analysieren und zusammenfassen.

Die neuen Funktionen in Le Chat werden laut Mistral AI zunächst als kostenlose Beta-Version eingeführt.

Pixtral Large ist beim Bildverständnis auf Augenhöhe mit dem Wettbewerb

Das neue multimodale Modell Pixtral Large, das auf dem Sprachmodell Mistral Large 2 aufbaut, erreicht nach Unternehmensangaben in mehreren Benchmarks Bestwerte.

Im MathVista-Test für mathematisches Reasoning mit visuellen Daten erzielt es 69,4 Prozent und übertrifft damit nach Angaben von Mistral AI Modelle wie GPT-4o und Gemini 1.5 Pro.

Auch bei der Analyse von Diagrammen und Dokumenten (ChartQA und DocVQA) sowie im MM-MT-Bench für realitätsnahe Anwendungsfälle liegt Pixtral Large laut Mistral AI vor Claude 3.5 Sonnet, Gemini 1.5 Pro und GPT-4o.

Empfehlung
Vergleichstabelle: Pixtral Large führt bei DocVQA und AI2D, zeigt konkurrenzfähige Leistung gegenüber Gemini-1.5 Pro und GPT-4o in allen Benchmarks.
Die visuellen Benchmark-Resultate von Pixtral Large im Vergleich zum Wettbewerb. Besonders bei der Dokumentenanalyse (DocVQA: 93,3 %) schneidet das Modell gut ab. Auch die mathematische Problemlösung (Mathvista: 69,4 %) liegt vor bisherigen Spitzenmodellen wie Gemini-1.5 Pro (67,8 %). | Bild: Mistral

Das neue Modell besteht aus einem 123 Milliarden Parameter großen multimodalen Decoder und einem eine Milliarde Parameter großen Vision-Encoder. Es kann mit einem 128K-Kontextfenster bis zu 30 hochauflösende Bilder gleichzeitig verarbeiten.

Pixtral Large ist unter zwei verschiedenen Lizenzen bei Hugging Face verfügbar: Für Forschung und Bildung gilt die Mistral Research License (MRL), für kommerzielle Experimente, Tests und den Produktiveinsatz bietet Mistral AI eine kommerzielle Lizenz an.

Parallel dazu erhält auch das Sprachmodell Mistral Large ein Update, das besseres Verständnis für lange Kontexte, einen neuen System-Prompt und präziseres Function Calling bietet. Das Update ist über die Mistral API verfügbar und wird in Kürze auch über Google Cloud und Microsoft Azure verfügbar sein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das französische KI-Start-up Mistral AI hat seinen KI-Assistenten Le Chat um Funktionen wie eine integrierte Websuche, Bildgenerierung und ein Canvas-Interface für kreative Arbeit erweitert. Die Bildgenerierung verwendet Flux-Modelle.
  • Mistral AI stellt mit Pixtral Large zudem ein neues multimodales Modell vor, das in mehreren visuellen Benchmarks Bestwerte erzielt und Konkurrenten wie GPT-4o, Gemini 1.5 Pro und Claude 3.5 Sonnet übertrifft.
  • Parallel dazu erhält das Sprachmodell Mistral Large ein Update für besseres Kontextverständnis und präziseres Function Calling.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!