Anzeige
Skip to content

Matthias Bastian

Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Read full article about: OpenAIs Fahrplan für das Sora-Aus: Web-Version endet im April, API folgt im September

OpenAI schaltet Sora im April und September ab. Das KI-Videotool wird in zwei Stufen eingestellt: Die Web- und App-Version endet am 26. April 2026, die Sora-API am 24. September 2026. OpenAI empfiehlt Nutzern, ihre Inhalte vor der Abschaltung herunterzuladen. Videos und Bilder lassen sich direkt aus der Sora-Bibliothek exportieren.

Ob es danach noch ein letztes Zeitfenster für den Datenexport geben wird, ist laut OpenAI noch nicht entschieden. Falls ja, werden Nutzer per E-Mail informiert. Nach Ablauf aller Fristen werden sämtliche Nutzerdaten dauerhaft gelöscht. Die Einstellung betrifft auch die Plattform sora.chatgpt.com, die zur Bild- und Videogenerierung genutzt werden konnte. Details finden sich auf der OpenAI-Hilfeseite unter "What to know about the Sora discontinuation".

Die Einstellung von Sora fügt sich in einen größeren Strategiewechsel bei OpenAI ein. Das Unternehmen will seine Rechenressourcen künftig auf zwei Kernbereiche konzentrieren: Coding-Werkzeuge und Geschäftskunden – ähnlich dem Rivalen Anthropic – sowie eine Super-App, die ChatGPT und weitere Tools vereint. Sora soll als Forschungsprojekt zum Thema Weltmodelle weiterleben, mit dem Ziel, "die physische Arbeit zu automatisieren".

Read full article about: Neues Gemini-Update lässt Nutzer Erinnerungen aus ChatGPT und Claude importieren

Google kopiert Anthropics Memory-Import-Funktion, um Erinnerungen aus ChatGPT in Gemini zu holen. Gemini-Nutzer können ab sofort ihre gespeicherten Erinnerungen, Vorlieben und den kompletten Chatverlauf aus anderen KI-Apps wie ChatGPT und Claude importieren.

Dazu kopiert man einen vorgeschlagenen Prompt in die bisherige KI-App, lässt dort eine Zusammenfassung erstellen und fügt diese in Gemini ein. Gemini speichert die Informationen dann im eigenen Kontext. Zusätzlich lassen sich Chatverläufe als ZIP-Datei (bis zu 5 GB) hochladen und frühere Gespräche in Gemini fortsetzen. Google benennt zudem die bisherige Funktion "Past Chats" in "Memory" um. Die Funktion wird schrittweise ausgerollt.

Googles neue Memory-Import-Funktion in Gemini: Nutzer kopieren einen Prompt in ihre bisherige KI-App und fügen die generierte Zusammenfassung in Gemini ein. | Bild: Google

Anthropic hatte die Funktion zuerst vorgestellt, nachdem OpenAI wegen eines Militär-Deals in die Kritik geraten war, den Anthropic aus ethischen Gründen abgelehnt hatte. Die daraufhin gestiegene Zahl an Wechslern wollte Anthropic mit einem zusätzlichen Anreiz bedienen. Interessant ist, dass die Datenextraktion sowohl bei Google als auch bei Anthropic rein auf einem Prompt basiert, der die bisherige KI-App dazu bringt, alle gespeicherten Informationen über den Nutzer auszugeben.

Read full article about: Cohere veröffentlicht neues Open-Source-Modell zur automatischen Spracherkennung

Das kanadische KI-Unternehmen Cohere hat mit "Transcribe" ein neues Open-Source-Modell zur automatischen Spracherkennung veröffentlicht. Das Modell belegt laut Cohere Platz 1 auf dem HuggingFace Open ASR Leaderboard mit einer durchschnittlichen Wortfehlerrate von nur 5,42 Prozent. Damit übertrifft es Konkurrenten wie OpenAIs Whisper Large v3, ElevenLabs Scribe v2 und Qwen3-ASR-1.7B. Neben hoher Genauigkeit bietet Transcribe laut Cohere auch den besten Durchsatz unter vergleichbar großen Modellen.

Die Grafik zeigt den Vergleich von sieben Spracherkennungsmodellen mit mehr als einer Milliarde Parametern. Auf der x-Achse ist die Genauigkeit als Wortfehlerrate (WER) abgetragen, wobei niedrigere Werte besser sind. Die y-Achse zeigt den Durchsatz (RTFx), also wie schnell ein Modell Audio im Verhältnis zur Echtzeit verarbeitet. Cohere Transcribe liegt mit einem RTFx von 525 und einer WER von etwa 5,4 oben links und ist damit sowohl das schnellste als auch das genaueste Modell. NVIDIA Canary Qwen 2.5B folgt mit einem RTFx von 418. Modelle wie OpenAIs Whisper Large v3 und Voxtral Realtime sind deutlich langsamer und ungenauer.
Cohere Transcribe im Vergleich mit sieben anderen Spracherkennungsmodellen: Je weiter oben links ein Modell liegt, desto besser ist es: also schneller (hoher Durchsatz) und genauer (niedrige Wortfehlerrate). | Bild: Cohere

Das 2-Milliarden-Parameter-Modell unterstützt 14 Sprachen, darunter Englisch, Deutsch, Französisch und Japanisch. Es steht unter der Apache-2.0-Lizenz auf Hugging Face zum Download bereit und ist auch über Coheres API sowie die Plattform Model Vault nutzbar. Cohere plant, Transcribe künftig in seine KI-Agenten-Plattform North zu integrieren.

Read full article about: Anthropic erwirkt einstweilige Verfügung gegen KI-Bann der Trump-Regierung

Anthropic hat vor einem Bundesgericht in San Francisco eine einstweilige Verfügung gegen die Trump-Regierung erwirkt. Richterin Rita Lin untersagte damit vorläufig die Umsetzung von Präsident Trumps Anweisung, Bundesbehörden die Nutzung von Anthropics KI-Modellen zu verbieten, sowie die Einstufung des Unternehmens als Sicherheitsrisiko durch das Pentagon.

Anthropic dafür zu bestrafen, dass es die Vertragsposition der Regierung in die öffentliche Kritik gerückt hat, ist ein klassischer Fall unzulässiger Vergeltung im Widerspruch zum First Amendment. […] Nichts in dem maßgeblichen Gesetz stützt die orwellsche Vorstellung, dass ein amerikanisches Unternehmen allein deshalb als potenzieller Gegner und Saboteur der USA gebrandmarkt werden darf, weil es seine Meinungsverschiedenheit mit der Regierung zum Ausdruck bringt.

Rita F. Lin, United States District Judge

Hintergrund ist ein gescheiterter 200-Millionen-Dollar-Vertrag: Das Pentagon wollte uneingeschränkten Zugang zu Anthropics Claude-Modellen, Anthropic forderte Garantien gegen den Einsatz für autonome Waffen oder Massenüberwachung. Verteidigungsminister Pete Hegseth hatte Anthropic daraufhin als "Supply Chain Risk" eingestuft. Anthropic ist das erste US-Unternehmen mit dieser Kennzeichnung. Ein endgültiges Urteil steht noch aus.

"Claude Mythos": Datenleck bei Anthropic enthüllt neues und bisher leistungsfähigstes KI-Modell

Update: Inzwischen sind die geleakten Blogartikel-Entwürfe im Netz aufgetaucht. Sie geben Einblick in Anthropics Pläne für eine neue, leistungsfähigere Modellklasse oberhalb der bisherigen Opus-Reihe, zeigen zwei mögliche Namenskandidaten und verraten Details zur geplanten Release-Strategie sowie zum Fokus auf Cybersicherheit.

Read full article about: Voller Zugriff auf Gemini: Apple destilliert Googles KI für lokale Modelle

Apple hat sich umfassende Zugriffsrechte auf Googles Gemini-Modelle gesichert. Laut Quellen von The Information hat Apple vollständigen Zugang zu Gemini in eigenen Rechenzentren und kann daraus per Destillation kleinere Modelle ableiten: Gemini erzeugt hochwertige Antworten inklusive seiner Denkkette ("Chain of Thought"), die als Trainingsdaten für ein kleineres Modell dienen. Apple bezahlt hier also für das, was angeblich China-Akteure heimlich tun, nämlich einem hochwertigen KI-Modell gute Trainingsdaten für ein kleineres entlocken.

Weil Apple vollen Zugriff hat, kann das kleinere Modell über das bloße Nachahmen von Geminis Antworten hinausgehen und auch dessen internen Rechenweg kopieren. Die so erzeugten Modelle benötigen deutlich weniger Rechenleistung und können direkt auf Apple-Geräten laufen.

Gemini sei jedoch für Chatbots und Unternehmensanwendungen optimiert, was nicht immer zu Apples Siri-Plänen passe. Apple arbeite daher parallel an eigenen Modellen im "Apple Foundation Models"-Team. Neue KI-Funktionen könnten im Juni auf Apples Entwicklerkonferenz angekündigt werden.

Read full article about: Mistral veröffentlicht neues Text-to-Speech-Modell Voxtral als Open-Weights-Version

Das französische KI-Start-up Mistral hat mit Voxtral TTS ein erstes Text-to-Speech-Modell veröffentlicht. Es unterstützt neun Sprachen, darunter Deutsch, Englisch, Französisch und Spanisch, und ist mit vier Milliarden Parametern vergleichsweise kompakt. Laut Mistral erzeugt das Modell realistische, emotional ausdrucksstarke Sprache und lässt sich leicht an neue Stimmen anpassen, schon ab drei Sekunden Referenzaudio. Die Modell-Latenz liegt bei 70 Millisekunden für ein typisches Set-up mit 10 Sekunden Sprachsample und 500 Zeichen.

In menschlichen Vergleichstests schnitt Voxtral TTS bei der Natürlichkeit besser ab als ElevenLabs Flash v2.5 bei ähnlicher Reaktionszeit. ElevenLabs hat mit v3 allerdings ein aktuelleres Modell. Voxtral TTS ist über eine API für 0,016 Dollar pro 1.000 Zeichen verfügbar, im Mistral Studio testbar und als Open-Weights-Version auf Hugging Face erhältlich.

Read full article about: OpenAI und Anthropic vor dem Börsengang: Unterschiedliche Bilanzen erschweren den Vergleich

Anthropic und OpenAI wachsen beim Umsatz rasant, doch ihre Buchhaltung unterscheidet sich erheblich, berichtet The Information. OpenAIs annualisierter Umsatz liegt bei etwa 25 Milliarden Dollar, Anthropics bei 19 Milliarden Dollar. Beide berechnen diese Zahl ähnlich: vier Wochen Umsatz mal 13, Anthropic addiert zusätzlich monatliche Abo-Einnahmen mal 12.

Der große Unterschied liegt bei den Cloud-Partnern: OpenAI gibt 20 Prozent seines Umsatzes an Microsoft ab und verbucht ihn vor diesem Abzug. Bei Cloud-Verkäufen über Azure zählt OpenAI nur seinen 20-Prozent-Anteil als Umsatz. Anthropic hingegen verbucht die gesamten Cloud-Verkäufe über AWS, Microsoft und Google als eigenen Umsatz und weist die Anteile der Cloud-Anbieter als Marketing- und Vertriebskosten aus. Grund: Anthropic sieht sich als Hauptanbieter, OpenAI betrachtet Microsoft als Hauptanbieter für Azure-Dienste.

Obwohl beide den US-Bilanzierungsregeln (GAAP) folgen, sind ihre Umsatzzahlen dadurch schwer vergleichbar. Anthropics Umsatz wirkt auf dem Papier wahrscheinlich höher, als er bei gleicher Methode wäre. Für Investoren ist das relevant, da beide Unternehmen auf einen Börsengang zusteuern.

Read full article about: Gemini 3.1 Flash Live: Google zeigt neues KI-Modell für natürlichere Sprachdialoge

Google hat Gemini 3.1 Flash Live vorgestellt, sein bisher bestes Sprach- und Audio-KI-Modell. Es bietet laut Google schnellere Antworten, natürlichere Gespräche und konfigurierbare Denkstufen für Entwickler. Es soll zudem Tonlagen und Emotionen besser erkennen und in lauten Umgebungen zuverlässiger arbeiten. Das Modell ist auch das neue Dialogmodell für den Live-Modus in der Gemini-App.

Laut Artificial Analysis erreicht das Modell auf der Denkstufe "High" 95,9 Prozent im Big Bench Audio Benchmark, Platz zwei hinter Step-Audio R1.1 Realtime (97,0 Prozent). Die Antwortzeit liegt bei 2,98 Sekunden. Auf der Stufe "Minimal" sinkt die Qualität auf 70,5 Prozent, die Antwortzeit verbessert sich aber auf 0,96 Sekunden.

Gemini 3.1 Flash Live erreicht mit hoher Denkstufe 95,9 Prozent im Big Bench Audio Benchmark und liegt damit auf Platz zwei hinter Step-Audio R1.1 Realtime. | Bild: Artificial Analysis

Gemini 3.1 Flash Live ist über die Gemini-Live-APIGoogle AI Studio, Gemini Live und Search Live in mehr als 200 Ländern verfügbar. Die Preise bleiben bei 0,35 Dollar pro Stunde Audio-Eingabe und 1,40 Dollar pro Stunde Audio-Ausgabe auf dem Niveau des Gemini-2.5-Vorgängermodells. Damit gehört es zu den günstigsten Audio-KI-Modellen am Markt, das etwas besser bewertete Step-Audio-Modell ist aber insgesamt noch etwas günstiger.