Das französische KI-Unternehmen Mistral AI stellt eine neue OCR-API vor, die Dokumente mit bisher unerreichter Genauigkeit verarbeitet und dabei Texte, Tabellen und Bilder gleichermaßen versteht.
Laut Ankündigung von Mistral AI soll die neue OCR-API einen Meilenstein in der Dokumentenverarbeitung darstellen. Das System kann neben Text auch Medien, Tabellen und mathematische Gleichungen mit hoher Präzision erfassen und verarbeiten. Sogar komplexe Infografiken kann das System aus Dokumenten übernehmen und digitalisieren.
In Benchmark-Tests übertrifft Mistral OCR die Konkurrenz: Mit einer Genauigkeit von 94,89 Prozent liegt das System vor Google Document AI (83,42 Prozent), Azure OCR (89,52 Prozent) und verschiedenen Gemini-Modellen von Google.
Multilingual und blitzschnell
Eine besondere Stärke des Systems ist die Verarbeitung verschiedener Sprachen. Nach Angaben von Mistral AI erreicht die OCR-API eine Genauigkeit von 99,02 Prozent über verschiedene Sprachen hinweg und übertrifft damit Google Document AI (95,88 Prozent) und Azure OCR (97,31 Prozent).
Neben der hohen Genauigkeit hebt Mistral AI die Verarbeitungsgeschwindigkeit hervor: Bis zu 2000 Seiten könne das System innerhalb einer Minute auf einem einzigen Rechenknoten verarbeiten. Möglich wird dies durch die vergleichsweise leichte Architektur des Modells. Der Preis liegt bei 1000 Seiten pro Dollar, bei Batch-Verarbeitung verdoppelt sich die Seitenzahl pro Dollar.
Mistral AI nennt verschiedene Anwendungsfälle: Forschungseinrichtungen nutzen das System zur Digitalisierung wissenschaftlicher Arbeiten, Organisationen zur Bewahrung historischer Dokumente und Kundenservice-Abteilungen zur Verbesserung ihrer Wissensdatenbanken.
Eine Besonderheit ist die "Doc-as-prompt"-Funktion, die es ermöglicht, Dokumente direkt als KI-Anweisungen zu verwenden. Zum Beispiel könnte ein längerer Vertrag als Prompt dienen, woraufhin die KI automatisch bestimmte Informationen wie Vertragsparteien, Laufzeiten oder Zahlungen herausfiltert und übersichtlich strukturiert bereitstellt.
Mistral OCR erlaubt zudem die strukturierte Ausgabe erfasster Inhalte, beispielsweise im JSON-Format, was die Weiterverarbeitung in nachgelagerten KI-Systemen oder als Grundlage für KI-Agenten erleichtern soll.
Für Organisationen mit hohen Sicherheitsanforderungen bietet Mistral AI eine Self-Hosting-Option an. Die API ist auf der Entwicklerplattform "la Plateforme" verfügbar und soll bald auch über Cloud- und Inferenz-Partner angeboten werden. Kostenlos testen kann man sie in Mistrals ChatGPT-Variante "le Chat", zum Zeitpunkt der Veröffentlichung dieses Artikels klappte das allerdings nicht.