Inhalt
summary Zusammenfassung

Mit Document AI stellt Mistral AI eine erweiterbare Plattform für die Dokumentenverarbeitung vor. Die Lösung kombiniert Zeichenerkennung mit strukturierter Datenausgabe, natürlicher Sprachverarbeitung und flexiblen Einsatzoptionen.

Anzeige

Document AI verarbeitet Texte unter anderem aus PDF, PowerPoint oder Word-Dokumenten, handschriftliche Notizen, Tabellen, Diagramme und komplexe Layouts mit hoher Genauigkeit.

Neben der reinen Texterkennung bietet Document AI eine erweiterte Annotation-Funktion, mit der sich gezielt Informationen aus Dokumenten extrahieren und in benutzerdefinierte JSON-Formate übertragen lassen.

Mistral unterscheidet dabei zwischen zwei Typen: der "BBox Annotation", bei der einzelne visuelle Elemente wie Diagramme, Tabellen oder Unterschriften annotiert und beschrieben werden, und der "Document Annotation", die sich auf die strukturierte Erfassung des gesamten Dokuments bezieht. Bei letzterer dürfen die Quelldateien jedoch nur höchstens acht Seiten lang sein.

Anzeige
Anzeige

Beide Varianten ermöglichen eine automatisierte Extraktion spezifischer Inhalte, etwa Vertragsklauseln, Beträge aus Rechnungen, Transaktionsdaten auf Quittungen oder Kapitelüberschriften und URLs aus wissenschaftlichen PDFs.

Flussdiagramm: Annotations-Workflow mit OCR, LLM/Vision, Dokument- und BBox-Annotation
Der Workflow veranschaulicht den Prozess der Dokumenten-Annotation mithilfe von OCR und einem LLM mit visuellen Fähigkeiten, um verschiedene Annotationsformate zu erzeugen. | Bild: Mistral AI

Die Annotationen basieren auf von Nutzer:innen bereitgestellten Datenmodellen und können mit einem visionfähigen Sprachmodell kombiniert werden, das auch komplexe Layouts und Inhalte interpretieren kann.

Laut Mistral eignet sich die Funktion besonders für Unternehmen mit großem Volumen an heterogenen Dokumenten und hohem Automatisierungsbedarf. Im Vergleich zur Basis-OCR sind die Annotationen rechenintensiver und werden gesondert abgerechnet.

Multilinguale Texterkennung in über 40 Sprachen

Eine zentrale Stärke von Document AI ist laut Mistral die Unterstützung für mehr als 40 Sprachen, darunter viele nicht-lateinische Schriftsysteme. Die Texterkennung funktioniert auch bei handschriftlichen Dokumenten oder schwierigen Layouts soll dabei eine Genauigkeit von mehr als 99 Prozent erreichen.

Die Plattform eignet sich für eine Vielzahl von Branchen, etwa für Behörden, Energieunternehmen, Forschungseinrichtungen oder juristische Abteilungen, und erlaubt auch das Training domänenspezifischer OCR-Modelle durch Finetuning. So können Nutzer:innen etwa medizinische Akten oder Verträge mit angepassten Extraktionsregeln analysieren lassen.

Empfehlung

Lokal oder in der Cloud

Document AI kann sowohl lokal (on-premises) als auch in privaten Cloud-Umgebungen betrieben werden. Damit erfüllt die Lösung Anforderungen an Datenschutz, Datenhoheit und regulatorische Vorgaben, wie sie insbesondere in Europa oder in sicherheitskritischen Branchen üblich sind.

Unternehmen haben die Möglichkeit, mithilfe der Plattform vollständige Dokumentenpipelines aufzubauen, von der Texterkennung über die Extraktion bis hin zur automatisierten Analyse. Die API ist über Mistrals Entwicklerplattform "la Plateforme" verfügbar, ein kostenloser Test ist über das Chat-Interface "le Chat" möglich.

ber die API kostet die Verarbeitung von 1.000 Seiten einen US-Dollar, inklusive der "Annotations", also der Extraktion von Informationen in einem vorgegebenen Format, drei US-Dollar.

Bereits im März 2025 hatte Mistral AI seine OCR-API vorgestellt, die als Grundlage für Document AI dient. Die API war ein erster Schritt hin zur modularen Dokumentenverarbeitung und kombinierte ebenfalls schnelle Texterkennung mit strukturierter Datenausgabe.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mistral AI stellt mit Document AI eine Plattform vor, die Dokumente wie PDFs, Word-Dateien, handschriftliche Notizen oder komplexe Layouts erkennt, in strukturierte Formate wie JSON umwandelt und sich flexibel in bestehende Workflows integrieren lässt.
  • Die Lösung unterstützt mehr als 40 Sprachen, darunter viele nicht-lateinische Schriftsysteme, erreicht laut Mistral über 99 Prozent Genauigkeit bei der Texterkennung und erlaubt das Finetuning domänenspezifischer Modelle etwa für medizinische oder juristische Dokumente.
  • Document AI kann lokal oder in der privaten Cloud betrieben werden, erfüllt damit Datenschutz- und Compliance-Anforderungen und steht über Mistrals Entwicklerplattform sowie als kostenloser Test im Chat-Interface zur Verfügung.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!