Forscher entwickeln universelles OCR-Modell für die nächste Generation der Texterkennung

Wissenschaftler:innen haben ein neues universelles optisches Zeichenerkennungsmodell (OCR) mit dem Namen GOT (General OCR Theory) entwickelt. In ihrem Forschungspapier definieren sie damit auch die Ära von OCR-2.0, die die Stärken traditioneller OCR-Systeme und großer Sprachmodelle vereinen soll.

Laut den Forschenden zeichnet sich ein OCR-2.0-Modell durch eine einheitliche Ende-zu-Ende-Architektur sowie geringeren Ressourcenbedarf als LLMs aus. Dennoch müsse es vielseitig einsetzbar sein und nicht nur reinen Fließtext erkennen.

GOT besteht aus einem Bildencoder mit rund 80 Millionen Parametern und einem Sprachdecoder mit 500 Millionen Parametern. Der Encoder komprimiert Bilder mit einer Auflösung von 1.024 x 1.024 Pixeln effizient in Tokens, die der Decoder in Text mit bis zu 8.000 Zeichen Länge umwandelt.

GOT macht Formeln, Musiknoten und mehr editierbar

GOT kann eine Vielzahl von visuellen Informationen erkennen und in editierbaren Text umwandeln, z.B. Szenen- und Dokumententexte in Englisch und Chinesisch, mathematische und chemische Formeln, Musiknoten, einfache geometrische Formen sowie Diagramme und deren Bestandteile wie Titel und Achsenbeschriftungen.

Um das Training zu beschleunigen und Rechenressourcen zu sparen, haben die Forschenden in einem dreistufigen Verfahren zunächst nur den Encoder auf Texterkennungsaufgaben trainiert.

Anschließend haben sie Alibabas Qwen-0.5B als Decoder hinzugefügt, da das kleine Modell vergleichsweise viele verschiedene Sprachen beherrscht, und das gesamte Modell mit vielfältigeren, synthetischen Daten optimiert.

Flussdiagramm: Dreistufige GOT-Modellarchitektur mit Vision-Encoder, linearer Schicht und Sprachmodellen für OCR-2.0-Technologie. — Das Diagramm illustriert die dreistufige Architektur des GOT-Modells (General OCR Theory), das traditionelle OCR-Systeme mit großen Sprachmodellen kombiniert. | Bild: Wei et al.

Zuletzt wurde lediglich der Decoder verfeinert, um zusätzliche Funktionen wie die Erkennung von Bildregionen, die Verarbeitung hochauflösender Bilder und die Erkennung mehrseitiger Dokumente zu ermöglichen. Dabei kann GOT auch die Formatierung des Dokuments beibehalten.

Drei Buchseiten in Chinesisch mit OCR-Erkennung und extrahiertem Text darunter, zeigt Formatbeibehaltung über mehrere Seiten. — Das System kann komplexe Dokumentstrukturen über mehrere Seiten hinweg erfassen und verarbeiten. So kann es formatierte Texte, Überschriften und sogar Bilder aus verschiedenen Seiten extrahieren und in eine strukturierte digitale Form überführen. | Bild: Wei et al.

Modulare Architektur ermöglicht flexible Erweiterung

Durch den modularen Aufbau und das Training auf synthetischen Daten kann GOT laut den Forschenden flexibel um neue Fähigkeiten erweitert werden, ohne dass sie das gesamte Modell neu trainieren müssen.

Für die Erzeugung der Trainingsdaten setzten die Forscher:innen auf Rendering-Tools wie LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib und Pyecharts. Damit wandelten sie gesammelte Textquellen in Millionen von Bild-Text-Paaren um.

Empfehlung

KI-Forschung

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Dreispaltiges Diagramm: Textquellen, Rendering-Tools und visuelle Ergebnisse für wissenschaftliche und technische Darstellungen. — Diese Übersicht zeigt den Prozess von Textquellen über Rendering-Tools zu visuellen Ergebnissen. Sie verdeutlicht, wie verschiedene Eingabeformate wie .tex oder SMILES-Codes durch spezialisierte Tools in komplexe mathematische Formeln, chemische Strukturen, geometrische Figuren und Diagramme umgewandelt werden können. | Bild: Wei et al.

In den Experimenten der Forscher schnitt GOT bei verschiedenen OCR-Aufgaben gut ab. Bei der Erkennung von Text in Dokumenten und Szenen erzielte es Bestwerte. Zudem übertraf es bei der Erkennung von Diagrammen sogar spezialisierte Modelle und große Sprachmodelle.

Vergleich von OCR-Eingaben und -Ausgaben: Chemische Strukturformel, Musiknoten und Balkendiagramm mit zugehörigen digitalen Repräsentationen. — Von komplexen chemischen Strukturformeln über musikalische Notationen bis zu Datenvisualisierungen: OCR 2.0 kann verschiedene Formate präzise erfassen und in maschinenlesbare Formate umwandeln. Das eröffnet neue Möglichkeiten für die automatisierte Verarbeitung und Analyse in Wissenschaft, Musik und Datenanalyse. | Bild: Wei et al.

Eine kostenlose Demo sowie den Code haben die Forschenden auf Hugging Face bereitgestellt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Forscher entwickeln universelles OCR-Modell für die nächste Generation der Texterkennung

GOT macht Formeln, Musiknoten und mehr editierbar

Modulare Architektur ermöglicht flexible Erweiterung

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

COLORBENCH zeigt Schwächen multimodaler KI

BiMediX2: Leistungsstarke KI für medizinische Bildanalyse auf Englisch und Arabisch

KI-System erkennt und bewertet Spielszenen und Fouls - und kommentiert sie sogar

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Forscher entwickeln universelles OCR-Modell für die nächste Generation der Texterkennung

GOT macht Formeln, Musiknoten und mehr editierbar

Modulare Architektur ermöglicht flexible Erweiterung

Artikel teilen

Bankverbindung