Anzeige
Short

Cohere bringt mit Command A Vision ein KI-Modell heraus, das besonders gut Bilder, Diagramme, PDFs und andere visuelle Daten analysieren kann. Laut Cohere schneidet das Modell in Benchmarks etwas besser ab als GPT-4.1, Llama 4 Maverick und Mistral Medium 3.

Die OCR-Funktion versteht nicht nur Text, sondern auch das Layout und die Struktur von Dokumenten wie Rechnungen oder Formularen und kann die extrahierten Daten strukturiert im JSON-Format ausgeben. Zudem kann Command A Vision reale Szenen analysieren, um etwa Risiken in Industrieanlagen zu erkennen.

Bild: Cohere

Command A Vision ist über die Cohere-Plattform und für Forschungszwecke über Hugging Face verfügbar. Das Modell läuft lokal mit zwei A100-Grafikprozessoren oder einem H100-Prozessor mit 4-Bit-Quantisierung.

Short

Black Forest Labs und Krea AI haben das offene Text-zu-Bild-Modell FLUX.1 Krea [dev] veröffentlicht. Es soll realistischere Bilder mit weniger überzeichneten KI-typischen Texturen erzeugen. Das Modell basiert auf FLUX.1 [dev] und ist mit dessen Architektur kompatibel. Es wurde speziell für flexible Anpassungen und den Einsatz in nachgelagerten Anwendungen entwickelt.

Die Modellgewichte sind auf Hugging Face verfügbar, kommerzielle Lizenzen über das BFL Licensing Portal. API-Zugänge bieten Partner wie FAL, Replicate, Runware, DataCrunch und TogetherAI.

Anzeige
Anzeige
Short

Google startet Opal – ein Tool, das KI-Mini-Apps ohne Programmierung per natürlicher Sprache erstellt.

Mit Opal können Nutzer komplexe Arbeitsabläufe durch einfache Beschreibungen in natürlicher Sprache aufbauen. Das experimentelle Tool verknüpft automatisch Prompts, KI-Modelle und andere Werkzeuge zu funktionsfähigen Anwendungen und übersetzt diese in visuelle Workflows.

Nutzer können ihre erstellten Apps mit anderen teilen, die diese dann mit ihrem eigenen Google-Account verwenden können. Opal startet zunächst als öffentliche Beta nur in den USA und soll durch Community-Feedback weiterentwickelt werden.

Anzeige
Anzeige
Anzeige
Anzeige
Google News