Inhalt
summary Zusammenfassung

Das chinesische KI-Unternehmen Deepseek hat ein System entwickelt, das Textdokumente in Bildform als hochkomprimierten Input verarbeitet. Die Methode soll das Problem zu langer Kontexte in Sprachmodellen lösen.

Anzeige

Das Grundprinzip basiert auf der Annahme, dass ein Bild mit Text weniger Rechenkapazität benötigt als die digitale Verarbeitung des gleichen Textes. Laut dem technischen Paper der Forschenden kann Deepseek-OCR Texte um das bis zu Zehnfache komprimieren und dabei 97 Prozent der ursprünglichen Informationen korrekt wiedergeben.

DeepSeek-OCR extrahiert strukturierte Chart-Daten aus Finanzberichten und rendert sie in Markdown.
Deepseek-OCRs Deep Parsing-Modus wandelt Finanzdiagramme in strukturierte Datensätze um und erstellt automatisch Markdown-Tabellen und -Diagramme. | Bild: Deepseek

DeepEncoder kombiniert bewährte KI-Bildmodelle

Das System besteht aus zwei Hauptkomponenten: einem Bildverarbeitungsteil namens DeepEncoder und einem Textgenerator auf Basis von Deepseek3B-MoE mit 570 Millionen aktivierten Parametern. Der DeepEncoder mit 380 Millionen Parametern analysiert das eingegebene Bild und wandelt es in eine komprimierte Darstellung um.

Blockdiagramm von DeepSeek-OCR mit SAM-ViTDet, 16×-Faltungskompressor, CLIP ViT-300M und DeepSeek-3B-MoE-Decoder.
Deepseek-OCR kombiniert lokale Bildanalyse (SAM-ViTDet) und globales Kontextwissen (CLIP ViT-300M) über einen 16-fachen Token-Kompressor, bevor der Deepseek-3B-MoE-Decoder den erkannten Text ausgibt. | Bild: Deepseek

Die Innovation liegt in der Architektur des DeepEncoders. Er kombiniert ein 80-Millionen-Parameter SAM-Modell mit einem 300-Millionen-Parameter CLIP-Modell. SAM (Segment Anything Model) ist Metas KI-System zur präzisen Bildsegmentierung, das einzelne Objekte in Bildern erkennen kann. CLIP stammt von OpenAI und kann Bilder und Text miteinander verknüpfen.

Anzeige
Anzeige

Zwischen beiden Modellen sitzt ein 16-fach-Kompressor, der die Anzahl der Bildtoken drastisch reduziert. Bei einem 1.024 x 1.024 Pixel-Bild entstehen zunächst 4.096 Bildtoken. Das SAM-Modell verarbeitet diese mit geringem Speicherverbrauch, bevor der Kompressor sie auf 256 Token reduziert. Erst diese komprimierten Token gelangen zum rechenintensiven CLIP-Teil.

Deepseek-OCR kann mit verschiedenen Bildauflösungen arbeiten. Bei niedrigen Auflösungen benötigt es 64 sogenannte "Vision-Token" um ein Bild zu verarbeiten. Bei höheren Auflösungen sind es bis zu 400 Token. Herkömmliche Systeme benötigen oft mehrere Tausend Token für die gleiche Aufgabe.

Mehrteilige Abbildung: DeepSeek-OCR wandelt chinesische Geometrieaufgaben in Markdown, extrahiert Figuren als Vektorgraphen und rendert sie neu.
Das Parsen simpler Vektorgrafiken sei jedoch noch äußerst anspruchsvoll und lange nicht ausgereift. | Bild: Deepseek

System übertrifft Konkurrenz mit einem Zehntel der Token

In Tests auf dem Benchmark OmniDocBench erreichte Deepseek-OCR mit 100 Vision-Token bessere Ergebnisse als GOT-OCR 2.0, das 256 Token verwendet. Mit weniger als 800 Token übertraf es MinerU 2.0, das mehr als 6000 Token pro Seite benötigt.

Edit-Distanzen von OCR-Modellen (englisch/chinesisch) auf OmniDocBench: DeepSeek-OCR Gundam-M†200dpi erzielt beste Werte.
Im OmniDocBench liefert sich Deepseek ein Kopf-an-Kopf-Rennen mit dem Modell dots.ocr des chinesischen Unternehmens Xiaohongshu bzw. Rednote.

Die Effizienz variiert je nach Dokumenttyp. Einfache Präsentationen können mit 64 Token verarbeitet werden, während Bücher und Berichte etwa 100 Token benötigen. Komplexe Zeitungen erfordern den aufwendigeren "Gundam-Modus" mit bis zu 800 Token.

Vier DeepSeek-OCR-Modi – Resize 64/100, Padding 256/400×R, Mehrseitig n·100/256+256/400, Sliding n·100/256+256/400×R
Deepseek-OCR erzielt durch Skalierung, Padding und Mehrseiten- oder Sliding-Window-Verfahren unterschiedliche Kompressionsraten und Token-Anzahlen und optimiert so Effizienz und OCR-Genauigkeit. | Bild: Deepseek

Das System kann verschiedene Arten von Dokumenten verarbeiten. Dazu gehören einfache Textseiten, Diagramme, chemische Formeln und geometrische Figuren. Es unterstützt etwa 100 Sprachen und kann sowohl die ursprüngliche Formatierung beibehalten als auch reinen Text ausgeben. Zusätzlich verfügt es nach wie vor über seine generellen Fähigkeiten zur Bildbeschreibung.

Empfehlung

Für das Training verwendeten die Forschenden 30 Millionen PDF-Seiten in etwa 100 Sprachen, wobei 25 Millionen auf Chinesisch und Englisch entfielen. Zusätzlich flossen zehn Millionen künstlich generierte Diagramme, fünf Millionen chemische Formeln und eine Million geometrische Figuren in das Training ein.

33 Millionen Seiten täglich für KI-Training

In der praktischen Anwendung kann Deepseek-OCR laut den Wissenschaftler:innen über 200.000 Seiten pro Tag auf einer einzelnen Nvidia-A100-GPU verarbeiten. Mit 20 Servern, die jeweils acht solcher Grafikkarten enthalten, steigt die Kapazität auf 33 Millionen Seiten täglich.

Vergleich von Erinnerung, Sehwahrnehmung und Texterkennung: Informationsverlust über Zeit, Distanz und Auflösung
Die Forschenden schlagen vor, das System für die Kompression von Gesprächsverläufen in Chatbots zu nutzen. Ältere Teile der Unterhaltung könnten in niedrigerer Auflösung gespeichert werden, ähnlich wie menschliche Erinnerungen mit der Zeit verblassen. Dies könnte zu Systemen führen, die längere Kontexte verarbeiten können, ohne dass die Rechenkosten proportional steigen. | Bild: Deepseek

Diese Kapazität macht das System für die Erstellung von Trainingsdaten für andere KI-Modelle interessant. Moderne Sprachmodelle benötigen große Mengen an Textdaten für ihr Training, und Deepseek-OCR könnte diese Daten aus Dokumenten extrahieren. Der Code und Modellgewichte sind öffentlich verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das chinesische Unternehmen Deepseek hat ein System vorgestellt, das Textdokumente als Bild verarbeitet. Dadurch wird der Speicherbedarf bei der Texterkennung um das Zehnfache reduziert, während gleichzeitig 97 Prozent der Informationen erhalten bleiben.
  • Die Deepseek-OCR-Architektur kombiniert das SAM-Modell von Meta und das CLIP-Modell von OpenAI mit einem Kompressor. Dadurch benötigt das System deutlich weniger Recheneinheiten pro Dokument als konkurrierende Lösungen und erzielt in Benchmarks mit einem Bruchteil der Token vergleichbare oder bessere Ergebnisse.
  • Deepseek-OCR kann täglich bis zu 33 Millionen Seiten auf moderner Hardware verarbeiten, unterstützt rund 100 Sprachen und eignet sich laut den Entwicklern besonders zur Generierung großer Trainingsdatensätze für KI-Modelle sowie zur effizienten Speicherung von Chatbot-Kontexten.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!