Anzeige
Short

Laut Google-Produktmanager Logan Kilpatrick "brennt" Googles KI-Infrastruktur mit TPU-Chips. Grund sei die hohe Rechenlast durch "massives Wachstum" bei neuen Produkten wie Veo 3 und den breiteren "AI Mode"-Rollout in der Google-Suche.

Kilpatrick reagierte auf Kritik, dass das neue Gemini 2.5 Pro Deep Think-Modell trotz guter Benchmark-Ergebnisse als kaum nutzbar bezeichnete. Der Zugang sei extrem begrenzt. Selbst Ultra-Abonnenten könnten derzeit nur wenige Anfragen pro Tag stellen. Laut Kilpatrick sei die Veröffentlichung bewusst eingeschränkt, da das Modell sehr groß sei und viel Rechenleistung erfordere.

Bild: Kilpatrick via X
Short

Das kürzlich veröffentlichte Videomodell Wan2.2 A14B ist laut Artificial Analysis das beste Open-Source-Videomodell. Im aktuellen Benchmark-Ranking belegt es Platz 7 für Text-zu-Video und Platz 14 für Bild-zu-Video. Die schwächere Platzierung bei Bild-zu-Video wird mit der geringeren Bildrate von 16 fps erklärt, während andere Modelle bis zu 24 fps unterstützen. Trotz seiner Führungsposition unter den offenen Modellen bleibt Wan2.2 A14B in der Gesamtleistung deutlich hinter geschlossenen Top-Modellen wie Veo 3 oder Seedance 1.0 zurück; dafür ist Wan2.2 je nach Anbieter auch um ein Vielfaches günstiger als die vorgenannten Modelle.

Bild: Artificial Analysis
Anzeige
Anzeige
Anzeige
Anzeige
Short

Uber Eats manipuliert jetzt Essensbilder mithilfe generativer KI.

Uber Eats setzt generative KI ein, um „niedrigqualitative Essensbilder“ auf Menüs zu erkennen und zu verbessern. Dabei werden nicht nur Licht, Auflösung oder Bildausschnitt verändert. Die KI kann das Essen auch „auf andere Teller oder Hintergründe editieren“ – und sogar „das Essen selbst anpassen, etwa es vergrößern oder Lücken auffüllen beim digitalen Neu-Anrichten“.

Diese Form der Bildmanipulation geht über klassische Retusche oder generische Stock-Fotos hinaus: Sie erzeugt potenziell authentisch wirkende Darstellungen von Gerichten, die nie tatsächlich existierten.

Bild: Uber
Short

Cohere bringt mit Command A Vision ein KI-Modell heraus, das besonders gut Bilder, Diagramme, PDFs und andere visuelle Daten analysieren kann. Laut Cohere schneidet das Modell in Benchmarks etwas besser ab als GPT-4.1, Llama 4 Maverick und Mistral Medium 3.

Die OCR-Funktion versteht nicht nur Text, sondern auch das Layout und die Struktur von Dokumenten wie Rechnungen oder Formularen und kann die extrahierten Daten strukturiert im JSON-Format ausgeben. Zudem kann Command A Vision reale Szenen analysieren, um etwa Risiken in Industrieanlagen zu erkennen.

Bild: Cohere

Command A Vision ist über die Cohere-Plattform und für Forschungszwecke über Hugging Face verfügbar. Das Modell läuft lokal mit zwei A100-Grafikprozessoren oder einem H100-Prozessor mit 4-Bit-Quantisierung.

Short

Black Forest Labs und Krea AI haben das offene Text-zu-Bild-Modell FLUX.1 Krea [dev] veröffentlicht. Es soll realistischere Bilder mit weniger überzeichneten KI-typischen Texturen erzeugen. Das Modell basiert auf FLUX.1 [dev] und ist mit dessen Architektur kompatibel. Es wurde speziell für flexible Anpassungen und den Einsatz in nachgelagerten Anwendungen entwickelt.

Die Modellgewichte sind auf Hugging Face verfügbar, kommerzielle Lizenzen über das BFL Licensing Portal. API-Zugänge bieten Partner wie FAL, Replicate, Runware, DataCrunch und TogetherAI.

Anzeige
Anzeige
Short

Google startet Opal – ein Tool, das KI-Mini-Apps ohne Programmierung per natürlicher Sprache erstellt.

Mit Opal können Nutzer komplexe Arbeitsabläufe durch einfache Beschreibungen in natürlicher Sprache aufbauen. Das experimentelle Tool verknüpft automatisch Prompts, KI-Modelle und andere Werkzeuge zu funktionsfähigen Anwendungen und übersetzt diese in visuelle Workflows.

Nutzer können ihre erstellten Apps mit anderen teilen, die diese dann mit ihrem eigenen Google-Account verwenden können. Opal startet zunächst als öffentliche Beta nur in den USA und soll durch Community-Feedback weiterentwickelt werden.

Google News