Mit Document AI stellt Mistral AI eine erweiterbare Plattform für die Dokumentenverarbeitung vor. Die Lösung kombiniert Zeichenerkennung mit strukturierter Datenausgabe, natürlicher Sprachverarbeitung und flexiblen Einsatzoptionen.
Document AI verarbeitet Texte unter anderem aus PDF, PowerPoint oder Word-Dokumenten, handschriftliche Notizen, Tabellen, Diagramme und komplexe Layouts mit hoher Genauigkeit.
Neben der reinen Texterkennung bietet Document AI eine erweiterte Annotation-Funktion, mit der sich gezielt Informationen aus Dokumenten extrahieren und in benutzerdefinierte JSON-Formate übertragen lassen.
Mistral unterscheidet dabei zwischen zwei Typen: der "BBox Annotation", bei der einzelne visuelle Elemente wie Diagramme, Tabellen oder Unterschriften annotiert und beschrieben werden, und der "Document Annotation", die sich auf die strukturierte Erfassung des gesamten Dokuments bezieht. Bei letzterer dürfen die Quelldateien jedoch nur höchstens acht Seiten lang sein.
Beide Varianten ermöglichen eine automatisierte Extraktion spezifischer Inhalte, etwa Vertragsklauseln, Beträge aus Rechnungen, Transaktionsdaten auf Quittungen oder Kapitelüberschriften und URLs aus wissenschaftlichen PDFs.

Die Annotationen basieren auf von Nutzer:innen bereitgestellten Datenmodellen und können mit einem visionfähigen Sprachmodell kombiniert werden, das auch komplexe Layouts und Inhalte interpretieren kann.
Laut Mistral eignet sich die Funktion besonders für Unternehmen mit großem Volumen an heterogenen Dokumenten und hohem Automatisierungsbedarf. Im Vergleich zur Basis-OCR sind die Annotationen rechenintensiver und werden gesondert abgerechnet.
Multilinguale Texterkennung in über 40 Sprachen
Eine zentrale Stärke von Document AI ist laut Mistral die Unterstützung für mehr als 40 Sprachen, darunter viele nicht-lateinische Schriftsysteme. Die Texterkennung funktioniert auch bei handschriftlichen Dokumenten oder schwierigen Layouts soll dabei eine Genauigkeit von mehr als 99 Prozent erreichen.
Die Plattform eignet sich für eine Vielzahl von Branchen, etwa für Behörden, Energieunternehmen, Forschungseinrichtungen oder juristische Abteilungen, und erlaubt auch das Training domänenspezifischer OCR-Modelle durch Finetuning. So können Nutzer:innen etwa medizinische Akten oder Verträge mit angepassten Extraktionsregeln analysieren lassen.
Lokal oder in der Cloud
Document AI kann sowohl lokal (on-premises) als auch in privaten Cloud-Umgebungen betrieben werden. Damit erfüllt die Lösung Anforderungen an Datenschutz, Datenhoheit und regulatorische Vorgaben, wie sie insbesondere in Europa oder in sicherheitskritischen Branchen üblich sind.
Unternehmen haben die Möglichkeit, mithilfe der Plattform vollständige Dokumentenpipelines aufzubauen, von der Texterkennung über die Extraktion bis hin zur automatisierten Analyse. Die API ist über Mistrals Entwicklerplattform "la Plateforme" verfügbar, ein kostenloser Test ist über das Chat-Interface "le Chat" möglich.
ber die API kostet die Verarbeitung von 1.000 Seiten einen US-Dollar, inklusive der "Annotations", also der Extraktion von Informationen in einem vorgegebenen Format, drei US-Dollar.
Bereits im März 2025 hatte Mistral AI seine OCR-API vorgestellt, die als Grundlage für Document AI dient. Die API war ein erster Schritt hin zur modularen Dokumentenverarbeitung und kombinierte ebenfalls schnelle Texterkennung mit strukturierter Datenausgabe.