Inhalt
summary Zusammenfassung

Wissenschaftler:innen haben ein neues universelles optisches Zeichenerkennungsmodell (OCR) mit dem Namen GOT (General OCR Theory) entwickelt. In ihrem Forschungspapier definieren sie damit auch die Ära von OCR-2.0, die die Stärken traditioneller OCR-Systeme und großer Sprachmodelle vereinen soll.

Anzeige

Laut den Forschenden zeichnet sich ein OCR-2.0-Modell durch eine einheitliche Ende-zu-Ende-Architektur sowie geringeren Ressourcenbedarf als LLMs aus. Dennoch müsse es vielseitig einsetzbar sein und nicht nur reinen Fließtext erkennen.

GOT besteht aus einem Bildencoder mit rund 80 Millionen Parametern und einem Sprachdecoder mit 500 Millionen Parametern. Der Encoder komprimiert Bilder mit einer Auflösung von 1.024 x 1.024 Pixeln effizient in Tokens, die der Decoder in Text mit bis zu 8.000 Zeichen Länge umwandelt.

GOT macht Formeln, Musiknoten und mehr editierbar

GOT kann eine Vielzahl von visuellen Informationen erkennen und in editierbaren Text umwandeln, z.B. Szenen- und Dokumententexte in Englisch und Chinesisch, mathematische und chemische Formeln, Musiknoten, einfache geometrische Formen sowie Diagramme und deren Bestandteile wie Titel und Achsenbeschriftungen.

Anzeige
Anzeige

Um das Training zu beschleunigen und Rechenressourcen zu sparen, haben die Forschenden in einem dreistufigen Verfahren zunächst nur den Encoder auf Texterkennungsaufgaben trainiert.

Anschließend haben sie Alibabas Qwen-0.5B als Decoder hinzugefügt, da das kleine Modell vergleichsweise viele verschiedene Sprachen beherrscht, und das gesamte Modell mit vielfältigeren, synthetischen Daten optimiert.

Flussdiagramm: Dreistufige GOT-Modellarchitektur mit Vision-Encoder, linearer Schicht und Sprachmodellen für OCR-2.0-Technologie.
Das Diagramm illustriert die dreistufige Architektur des GOT-Modells (General OCR Theory), das traditionelle OCR-Systeme mit großen Sprachmodellen kombiniert. | Bild: Wei et al.

Zuletzt wurde lediglich der Decoder verfeinert, um zusätzliche Funktionen wie die Erkennung von Bildregionen, die Verarbeitung hochauflösender Bilder und die Erkennung mehrseitiger Dokumente zu ermöglichen. Dabei kann GOT auch die Formatierung des Dokuments beibehalten.

Drei Buchseiten in Chinesisch mit OCR-Erkennung und extrahiertem Text darunter, zeigt Formatbeibehaltung über mehrere Seiten.
Das System kann komplexe Dokumentstrukturen über mehrere Seiten hinweg erfassen und verarbeiten. So kann es formatierte Texte, Überschriften und sogar Bilder aus verschiedenen Seiten extrahieren und in eine strukturierte digitale Form überführen. | Bild: Wei et al.

Modulare Architektur ermöglicht flexible Erweiterung

Durch den modularen Aufbau und das Training auf synthetischen Daten kann GOT laut den Forschenden flexibel um neue Fähigkeiten erweitert werden, ohne dass sie das gesamte Modell neu trainieren müssen.

Für die Erzeugung der Trainingsdaten setzten die Forscher:innen auf Rendering-Tools wie LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib und Pyecharts. Damit wandelten sie gesammelte Textquellen in Millionen von Bild-Text-Paaren um.

Empfehlung
Dreispaltiges Diagramm: Textquellen, Rendering-Tools und visuelle Ergebnisse für wissenschaftliche und technische Darstellungen.
Diese Übersicht zeigt den Prozess von Textquellen über Rendering-Tools zu visuellen Ergebnissen. Sie verdeutlicht, wie verschiedene Eingabeformate wie .tex oder SMILES-Codes durch spezialisierte Tools in komplexe mathematische Formeln, chemische Strukturen, geometrische Figuren und Diagramme umgewandelt werden können. | Bild: Wei et al.

In den Experimenten der Forscher schnitt GOT bei verschiedenen OCR-Aufgaben gut ab. Bei der Erkennung von Text in Dokumenten und Szenen erzielte es Bestwerte. Zudem übertraf es bei der Erkennung von Diagrammen sogar spezialisierte Modelle und große Sprachmodelle.

Vergleich von OCR-Eingaben und -Ausgaben: Chemische Strukturformel, Musiknoten und Balkendiagramm mit zugehörigen digitalen Repräsentationen.
Von komplexen chemischen Strukturformeln über musikalische Notationen bis zu Datenvisualisierungen: OCR 2.0 kann verschiedene Formate präzise erfassen und in maschinenlesbare Formate umwandeln. Das eröffnet neue Möglichkeiten für die automatisierte Verarbeitung und Analyse in Wissenschaft, Musik und Datenanalyse. | Bild: Wei et al.

Eine kostenlose Demo sowie den Code haben die Forschenden auf Hugging Face bereitgestellt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben ein neues universelles optisches Zeichenerkennungsmodell namens GOT (General OCR Theory) entwickelt, das die Ära von OCR-2.0 einläuten soll. OCR-2.0 vereint die Stärken traditioneller OCR-Systeme mit denen großer Sprachmodelle.
  • GOT besteht aus einem effizienten Bildencoder mit 80 Millionen Parametern und einem vielseitigen Sprachdecoder mit 500 Millionen Parametern. Es kann verschiedenste optische Informationen wie Text, Formeln, Musiknoten und Diagramme erkennen und in editierbaren Text umwandeln.
  • Durch den modularen Aufbau und das Training auf synthetischen Daten lässt sich GOT flexibel um neue Fähigkeiten erweitern. In Experimenten erzielte es bei verschiedenen OCR-Aufgaben Bestwerte und übertraf teils sogar spezialisierte Modelle. Eine Demo und der Code sind auf Hugging Face verfügbar.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!