Command A Vision: Coheres neues KI-Modell versteht Bilder und Dokumente
Cohere bringt mit Command A Vision ein KI-Modell heraus, das besonders gut Bilder, Diagramme, PDFs und andere visuelle Daten analysieren kann. Laut Cohere schneidet das Modell in Benchmarks etwas besser ab als GPT-4.1, Llama 4 Maverick und Mistral Medium 3.
Die OCR-Funktion versteht nicht nur Text, sondern auch das Layout und die Struktur von Dokumenten wie Rechnungen oder Formularen und kann die extrahierten Daten strukturiert im JSON-Format ausgeben. Zudem kann Command A Vision reale Szenen analysieren, um etwa Risiken in Industrieanlagen zu erkennen.

Command A Vision ist über die Cohere-Plattform und für Forschungszwecke über Hugging Face verfügbar. Das Modell läuft lokal mit zwei A100-Grafikprozessoren oder einem H100-Prozessor mit 4-Bit-Quantisierung.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.