Mistral AI startet Document AI für automatisierte Dokumentenverarbeitung mit KI

Mit Document AI stellt Mistral AI eine erweiterbare Plattform für die Dokumentenverarbeitung vor. Die Lösung kombiniert Zeichenerkennung mit strukturierter Datenausgabe, natürlicher Sprachverarbeitung und flexiblen Einsatzoptionen.

Document AI verarbeitet Texte unter anderem aus PDF, PowerPoint oder Word-Dokumenten, handschriftliche Notizen, Tabellen, Diagramme und komplexe Layouts mit hoher Genauigkeit.

Neben der reinen Texterkennung bietet Document AI eine erweiterte Annotation-Funktion, mit der sich gezielt Informationen aus Dokumenten extrahieren und in benutzerdefinierte JSON-Formate übertragen lassen.

Mistral unterscheidet dabei zwischen zwei Typen: der "BBox Annotation", bei der einzelne visuelle Elemente wie Diagramme, Tabellen oder Unterschriften annotiert und beschrieben werden, und der "Document Annotation", die sich auf die strukturierte Erfassung des gesamten Dokuments bezieht. Bei letzterer dürfen die Quelldateien jedoch nur höchstens acht Seiten lang sein.

Beide Varianten ermöglichen eine automatisierte Extraktion spezifischer Inhalte, etwa Vertragsklauseln, Beträge aus Rechnungen, Transaktionsdaten auf Quittungen oder Kapitelüberschriften und URLs aus wissenschaftlichen PDFs.

Flussdiagramm: Annotations-Workflow mit OCR, LLM/Vision, Dokument- und BBox-Annotation — Der Workflow veranschaulicht den Prozess der Dokumenten-Annotation mithilfe von OCR und einem LLM mit visuellen Fähigkeiten, um verschiedene Annotationsformate zu erzeugen. | Bild: Mistral AI

Die Annotationen basieren auf von Nutzer:innen bereitgestellten Datenmodellen und können mit einem visionfähigen Sprachmodell kombiniert werden, das auch komplexe Layouts und Inhalte interpretieren kann.

Laut Mistral eignet sich die Funktion besonders für Unternehmen mit großem Volumen an heterogenen Dokumenten und hohem Automatisierungsbedarf. Im Vergleich zur Basis-OCR sind die Annotationen rechenintensiver und werden gesondert abgerechnet.

Multilinguale Texterkennung in über 40 Sprachen

Eine zentrale Stärke von Document AI ist laut Mistral die Unterstützung für mehr als 40 Sprachen, darunter viele nicht-lateinische Schriftsysteme. Die Texterkennung funktioniert auch bei handschriftlichen Dokumenten oder schwierigen Layouts soll dabei eine Genauigkeit von mehr als 99 Prozent erreichen.

Die Plattform eignet sich für eine Vielzahl von Branchen, etwa für Behörden, Energieunternehmen, Forschungseinrichtungen oder juristische Abteilungen, und erlaubt auch das Training domänenspezifischer OCR-Modelle durch Finetuning. So können Nutzer:innen etwa medizinische Akten oder Verträge mit angepassten Extraktionsregeln analysieren lassen.

Empfehlung

KI in der Praxis

OpenAI veröffentlicht KI-Videogenerator Sora für ChatGPT-Abonnenten

Lokal oder in der Cloud

Document AI kann sowohl lokal (on-premises) als auch in privaten Cloud-Umgebungen betrieben werden. Damit erfüllt die Lösung Anforderungen an Datenschutz, Datenhoheit und regulatorische Vorgaben, wie sie insbesondere in Europa oder in sicherheitskritischen Branchen üblich sind.

Unternehmen haben die Möglichkeit, mithilfe der Plattform vollständige Dokumentenpipelines aufzubauen, von der Texterkennung über die Extraktion bis hin zur automatisierten Analyse. Die API ist über Mistrals Entwicklerplattform "la Plateforme" verfügbar, ein kostenloser Test ist über das Chat-Interface "le Chat" möglich.

ber die API kostet die Verarbeitung von 1.000 Seiten einen US-Dollar, inklusive der "Annotations", also der Extraktion von Informationen in einem vorgegebenen Format, drei US-Dollar.

Bereits im März 2025 hatte Mistral AI seine OCR-API vorgestellt, die als Grundlage für Document AI dient. Die API war ein erster Schritt hin zur modularen Dokumentenverarbeitung und kombinierte ebenfalls schnelle Texterkennung mit strukturierter Datenausgabe.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mistral AI startet Document AI für automatisierte Dokumentenverarbeitung mit KI

Multilinguale Texterkennung in über 40 Sprachen

OpenAI veröffentlicht KI-Videogenerator Sora für ChatGPT-Abonnenten

Lokal oder in der Cloud

Mistral AI soll Luxemburgs Verwaltung und Militär fit für KI-Zukunft machen

EU-Alternative zu US-Clouds: Mistral AI startet KI-Plattform "Mistral Compute"

Mistral Code ist ein Enterprise-fokussierter Vibe-Coding-Assistent

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Mistral AI startet Document AI für automatisierte Dokumentenverarbeitung mit KI

Multilinguale Texterkennung in über 40 Sprachen

Lokal oder in der Cloud

Artikel teilen

Bankverbindung