Anzeige
Skip to content
Read full article about: Cohere veröffentlicht neues Open-Source-Modell zur automatischen Spracherkennung

Das kanadische KI-Unternehmen Cohere hat mit "Transcribe" ein neues Open-Source-Modell zur automatischen Spracherkennung veröffentlicht. Das Modell belegt laut Cohere Platz 1 auf dem HuggingFace Open ASR Leaderboard mit einer durchschnittlichen Wortfehlerrate von nur 5,42 Prozent. Damit übertrifft es Konkurrenten wie OpenAIs Whisper Large v3, ElevenLabs Scribe v2 und Qwen3-ASR-1.7B. Neben hoher Genauigkeit bietet Transcribe laut Cohere auch den besten Durchsatz unter vergleichbar großen Modellen.

Die Grafik zeigt den Vergleich von sieben Spracherkennungsmodellen mit mehr als einer Milliarde Parametern. Auf der x-Achse ist die Genauigkeit als Wortfehlerrate (WER) abgetragen, wobei niedrigere Werte besser sind. Die y-Achse zeigt den Durchsatz (RTFx), also wie schnell ein Modell Audio im Verhältnis zur Echtzeit verarbeitet. Cohere Transcribe liegt mit einem RTFx von 525 und einer WER von etwa 5,4 oben links und ist damit sowohl das schnellste als auch das genaueste Modell. NVIDIA Canary Qwen 2.5B folgt mit einem RTFx von 418. Modelle wie OpenAIs Whisper Large v3 und Voxtral Realtime sind deutlich langsamer und ungenauer.
Cohere Transcribe im Vergleich mit sieben anderen Spracherkennungsmodellen: Je weiter oben links ein Modell liegt, desto besser ist es: also schneller (hoher Durchsatz) und genauer (niedrige Wortfehlerrate). | Bild: Cohere

Das 2-Milliarden-Parameter-Modell unterstützt 14 Sprachen, darunter Englisch, Deutsch, Französisch und Japanisch. Es steht unter der Apache-2.0-Lizenz auf Hugging Face zum Download bereit und ist auch über Coheres API sowie die Plattform Model Vault nutzbar. Cohere plant, Transcribe künftig in seine KI-Agenten-Plattform North zu integrieren.

Read full article about: Anthropic erwirkt einstweilige Verfügung gegen KI-Bann der Trump-Regierung

Anthropic hat vor einem Bundesgericht in San Francisco eine einstweilige Verfügung gegen die Trump-Regierung erwirkt. Richterin Rita Lin untersagte damit vorläufig die Umsetzung von Präsident Trumps Anweisung, Bundesbehörden die Nutzung von Anthropics KI-Modellen zu verbieten, sowie die Einstufung des Unternehmens als Sicherheitsrisiko durch das Pentagon.

Anthropic dafür zu bestrafen, dass es die Vertragsposition der Regierung in die öffentliche Kritik gerückt hat, ist ein klassischer Fall unzulässiger Vergeltung im Widerspruch zum First Amendment. […] Nichts in dem maßgeblichen Gesetz stützt die orwellsche Vorstellung, dass ein amerikanisches Unternehmen allein deshalb als potenzieller Gegner und Saboteur der USA gebrandmarkt werden darf, weil es seine Meinungsverschiedenheit mit der Regierung zum Ausdruck bringt.

Rita F. Lin, United States District Judge

Hintergrund ist ein gescheiterter 200-Millionen-Dollar-Vertrag: Das Pentagon wollte uneingeschränkten Zugang zu Anthropics Claude-Modellen, Anthropic forderte Garantien gegen den Einsatz für autonome Waffen oder Massenüberwachung. Verteidigungsminister Pete Hegseth hatte Anthropic daraufhin als "Supply Chain Risk" eingestuft. Anthropic ist das erste US-Unternehmen mit dieser Kennzeichnung. Ein endgültiges Urteil steht noch aus.

Anzeige

Metas eigenes Aufsichtsgremium warnt: Community Notes sind KI-Desinformation nicht gewachsen

Das Oversight Board von Meta hat die geplante weltweite Ausweitung von Community Notes untersucht. Das Ergebnis: Das System ist zu langsam, zu dünn besetzt und anfällig für Manipulation, besonders angesichts der wachsenden Flut KI-generierter Desinformation. In bestimmten Ländern sollte Meta das Programm gar nicht erst einführen.

Anzeige
Read full article about: OpenAI verbindet Codex per Plugin mit Slack, Gmail und Co.

OpenAI führt Plugins für seinen KI-Programmierassistenten Codex ein, um mit gängigen Arbeitstools wie Slack, Figma, Notion, Gmail und Google Drive zusammenzuarbeiten. Laut OpenAI helfen die Plugins nicht nur beim Programmieren, sondern auch bei Planung, Recherche und Koordination. Technisch bündeln Plugins sogenannte Skills (vordefinierte Prompt-Arbeitsabläufe), App-Integrationen und MCP-Server-Konfigurationen in einem installierbaren Paket, ähnlich zur Integration in ChatGPT. Sie lassen sich in der Codex-App, der Codex-Kommandozeile und in IDE-Erweiterungen nutzen. Entwickler können eigene Plugins erstellen und über lokale oder teamweite "Marketplaces" verteilen. Ein offizielles Plugin-Verzeichnis mit kuratierten Plugins von OpenAI ist bereits verfügbar, eine Selbstveröffentlichung soll bald folgen. Weitere Plugins und Anwendungsfälle sollen laut OpenAI schrittweise hinzukommen.

Die Plugins sind Teil von OpenAIs strategischer Neuausrichtung auf Coding-Werkzeuge und Geschäftskunden, die auch eine geplante "Superapp" aus ChatGPT, Codex und dem Browser Atlas umfasst. Codex hat laut OpenAI inzwischen über 1,6 Millionen wöchentlich aktive Nutzer, erst kürzlich folgte eine Windows-Version.

"Claude Mythos": Datenleck bei Anthropic enthüllt neues und bisher leistungsfähigstes KI-Modell

Update: Inzwischen sind die geleakten Blogartikel-Entwürfe im Netz aufgetaucht. Sie geben Einblick in Anthropics Pläne für eine neue, leistungsfähigere Modellklasse oberhalb der bisherigen Opus-Reihe, zeigen zwei mögliche Namenskandidaten und verraten Details zur geplanten Release-Strategie sowie zum Fokus auf Cybersicherheit.

Anzeige
Read full article about: Voller Zugriff auf Gemini: Apple destilliert Googles KI für lokale Modelle

Apple hat sich umfassende Zugriffsrechte auf Googles Gemini-Modelle gesichert. Laut Quellen von The Information hat Apple vollständigen Zugang zu Gemini in eigenen Rechenzentren und kann daraus per Destillation kleinere Modelle ableiten: Gemini erzeugt hochwertige Antworten inklusive seiner Denkkette ("Chain of Thought"), die als Trainingsdaten für ein kleineres Modell dienen. Apple bezahlt hier also für das, was angeblich China-Akteure heimlich tun, nämlich einem hochwertigen KI-Modell gute Trainingsdaten für ein kleineres entlocken.

Weil Apple vollen Zugriff hat, kann das kleinere Modell über das bloße Nachahmen von Geminis Antworten hinausgehen und auch dessen internen Rechenweg kopieren. Die so erzeugten Modelle benötigen deutlich weniger Rechenleistung und können direkt auf Apple-Geräten laufen.

Gemini sei jedoch für Chatbots und Unternehmensanwendungen optimiert, was nicht immer zu Apples Siri-Plänen passe. Apple arbeite daher parallel an eigenen Modellen im "Apple Foundation Models"-Team. Neue KI-Funktionen könnten im Juni auf Apples Entwicklerkonferenz angekündigt werden.