Skip to content

Anthropic Claude 3.5 Sonnet kann jetzt PDFs inklusive der Bilder lesen und verstehen

Image description
Anthropic

Kurz & Knapp

  • Anthropic hat die Unterstützung von PDF-Dateien für sein KI-Sprachmodell Claude 3.5 Sonnet in einer öffentlichen Beta-Version eingeführt, die es dem System ermöglicht, sowohl Text als auch Bilder, Diagramme und Tabellen in PDFs zu analysieren und zu verstehen.
  • Die PDF-Verarbeitung erfolgt in drei Schritten: Extraktion des Textes, Umwandlung jeder Seite in ein Bild und Analyse beider Komponenten durch Claude. Die Ergebnisse können dann mit anderen Funktionen des Sprachmodells kombiniert werden.
  • Für optimale Resultate empfiehlt Anthropic gut lesbare Texte, korrekt ausgerichtete Seiten und die Referenzierung logischer Seitenzahlen. Bei der API-Nutzung sollten PDFs vor dem Text platziert und große Dateien bei Bedarf aufgeteilt werden.

Anthropic hat die PDF-Unterstützung für sein KI-Sprachmodell Claude 3.5 Sonnet in einer öffentlichen Beta-Version veröffentlicht.

Claude kann nun sowohl Text als auch Bilder, Diagramme und Tabellen in PDF-Dateien analysieren und verstehen. Damit lassen sich laut Anthropic etwa Finanzberichte analysieren, wichtige Informationen aus juristischen Dokumenten extrahieren oder Dokumente übersetzen.

Die PDF-Unterstützung funktioniert, indem das System den Text extrahiert und jede Seite in ein Bild umwandelt. Claude analysiert dann sowohl den Text als auch die Bilder, um das Dokument besser zu verstehen. In einem dritten Schritt können die Ergebnisse mit anderen Funktionen von Claude kombiniert werden.

Video: Anthropic

Die maximale Dateigröße beträgt 32 MB und die Dokumente dürfen nicht mehr als 100 Seiten umfassen. Verschlüsselte oder passwortgeschützte PDF-Dateien werden nicht unterstützt.

Die Tokenkosten für die PDF-Verarbeitung hängen vom extrahierten Text und der Anzahl der Seiten ab. Nach Angaben von Anthropic werden pro Seite typischerweise zwischen 1.500 und 3.000 Token verbraucht, abhängig von der Dichte des Inhalts. Für die PDF-Verarbeitung fallen keine zusätzlichen Gebühren an.

Die PDF-Unterstützung befindet sich derzeit in der öffentlichen Beta-Phase und ist zunächst im Claude-Chat als Feature Preview und über die API mit dem Header "anthropic-beta: pdfs-2024-09-25" verfügbar. Eine Integration in Amazon Bedrock und Google Vertex AI soll folgen.

Anthropic gibt Tipps für optimale Ergebnisse

Für optimale Ergebnisse empfiehlt Anthropic, auf gut lesbare Texte und korrekt ausgerichtete Seiten zu achten. Bei der Referenzierung von Seitenzahlen sollte die im PDF-Viewer angezeigte logische Nummer verwendet werden.

Bei der API-Nutzung sollten PDFs vor dem Text in Anfragen platziert werden. Sehr große PDFs können in kleinere Teile aufgeteilt werden, wenn die Limits überschritten werden. Für wiederholte Analysen desselben Dokuments empfiehlt sich die Nutzung von Prompt-Caching. Beispiele für die PDF-Verarbeitung sind hier verfügbar.

Quelle: Anthropic

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren