Skip to content

Forscher entwickeln universelles OCR-Modell für die nächste Generation der Texterkennung

Image description
Wei et al.

Kurz & Knapp

  • Forscher haben ein neues universelles optisches Zeichenerkennungsmodell namens GOT (General OCR Theory) entwickelt, das die Ära von OCR-2.0 einläuten soll. OCR-2.0 vereint die Stärken traditioneller OCR-Systeme mit denen großer Sprachmodelle.
  • GOT besteht aus einem effizienten Bildencoder mit 80 Millionen Parametern und einem vielseitigen Sprachdecoder mit 500 Millionen Parametern. Es kann verschiedenste optische Informationen wie Text, Formeln, Musiknoten und Diagramme erkennen und in editierbaren Text umwandeln.
  • Durch den modularen Aufbau und das Training auf synthetischen Daten lässt sich GOT flexibel um neue Fähigkeiten erweitern. In Experimenten erzielte es bei verschiedenen OCR-Aufgaben Bestwerte und übertraf teils sogar spezialisierte Modelle. Eine Demo und der Code sind auf Hugging Face verfügbar.

Wissenschaftler:innen haben ein neues universelles optisches Zeichenerkennungsmodell (OCR) mit dem Namen GOT (General OCR Theory) entwickelt. In ihrem Forschungspapier definieren sie damit auch die Ära von OCR-2.0, die die Stärken traditioneller OCR-Systeme und großer Sprachmodelle vereinen soll.

Laut den Forschenden zeichnet sich ein OCR-2.0-Modell durch eine einheitliche Ende-zu-Ende-Architektur sowie geringeren Ressourcenbedarf als LLMs aus. Dennoch müsse es vielseitig einsetzbar sein und nicht nur reinen Fließtext erkennen.

GOT besteht aus einem Bildencoder mit rund 80 Millionen Parametern und einem Sprachdecoder mit 500 Millionen Parametern. Der Encoder komprimiert Bilder mit einer Auflösung von 1.024 x 1.024 Pixeln effizient in Tokens, die der Decoder in Text mit bis zu 8.000 Zeichen Länge umwandelt.

GOT macht Formeln, Musiknoten und mehr editierbar

GOT kann eine Vielzahl von visuellen Informationen erkennen und in editierbaren Text umwandeln, z.B. Szenen- und Dokumententexte in Englisch und Chinesisch, mathematische und chemische Formeln, Musiknoten, einfache geometrische Formen sowie Diagramme und deren Bestandteile wie Titel und Achsenbeschriftungen.

Um das Training zu beschleunigen und Rechenressourcen zu sparen, haben die Forschenden in einem dreistufigen Verfahren zunächst nur den Encoder auf Texterkennungsaufgaben trainiert.

Anschließend haben sie Alibabas Qwen-0.5B als Decoder hinzugefügt, da das kleine Modell vergleichsweise viele verschiedene Sprachen beherrscht, und das gesamte Modell mit vielfältigeren, synthetischen Daten optimiert.

Flussdiagramm: Dreistufige GOT-Modellarchitektur mit Vision-Encoder, linearer Schicht und Sprachmodellen für OCR-2.0-Technologie.
Das Diagramm illustriert die dreistufige Architektur des GOT-Modells (General OCR Theory), das traditionelle OCR-Systeme mit großen Sprachmodellen kombiniert. | Bild: Wei et al.

Zuletzt wurde lediglich der Decoder verfeinert, um zusätzliche Funktionen wie die Erkennung von Bildregionen, die Verarbeitung hochauflösender Bilder und die Erkennung mehrseitiger Dokumente zu ermöglichen. Dabei kann GOT auch die Formatierung des Dokuments beibehalten.

Drei Buchseiten in Chinesisch mit OCR-Erkennung und extrahiertem Text darunter, zeigt Formatbeibehaltung über mehrere Seiten.
Das System kann komplexe Dokumentstrukturen über mehrere Seiten hinweg erfassen und verarbeiten. So kann es formatierte Texte, Überschriften und sogar Bilder aus verschiedenen Seiten extrahieren und in eine strukturierte digitale Form überführen. | Bild: Wei et al.

Modulare Architektur ermöglicht flexible Erweiterung

Durch den modularen Aufbau und das Training auf synthetischen Daten kann GOT laut den Forschenden flexibel um neue Fähigkeiten erweitert werden, ohne dass sie das gesamte Modell neu trainieren müssen.

Für die Erzeugung der Trainingsdaten setzten die Forscher:innen auf Rendering-Tools wie LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib und Pyecharts. Damit wandelten sie gesammelte Textquellen in Millionen von Bild-Text-Paaren um.

Dreispaltiges Diagramm: Textquellen, Rendering-Tools und visuelle Ergebnisse für wissenschaftliche und technische Darstellungen.
Diese Übersicht zeigt den Prozess von Textquellen über Rendering-Tools zu visuellen Ergebnissen. Sie verdeutlicht, wie verschiedene Eingabeformate wie .tex oder SMILES-Codes durch spezialisierte Tools in komplexe mathematische Formeln, chemische Strukturen, geometrische Figuren und Diagramme umgewandelt werden können. | Bild: Wei et al.

In den Experimenten der Forscher schnitt GOT bei verschiedenen OCR-Aufgaben gut ab. Bei der Erkennung von Text in Dokumenten und Szenen erzielte es Bestwerte. Zudem übertraf es bei der Erkennung von Diagrammen sogar spezialisierte Modelle und große Sprachmodelle.

Vergleich von OCR-Eingaben und -Ausgaben: Chemische Strukturformel, Musiknoten und Balkendiagramm mit zugehörigen digitalen Repräsentationen.
Von komplexen chemischen Strukturformeln über musikalische Notationen bis zu Datenvisualisierungen: OCR 2.0 kann verschiedene Formate präzise erfassen und in maschinenlesbare Formate umwandeln. Das eröffnet neue Möglichkeiten für die automatisierte Verarbeitung und Analyse in Wissenschaft, Musik und Datenanalyse. | Bild: Wei et al.

Eine kostenlose Demo sowie den Code haben die Forschenden auf Hugging Face bereitgestellt.

Quelle: Hugging Face | Paper

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren