Anzeige
Skip to content
Read full article about: OpenAI veröffentlicht Updates für Audio-API und beschleunigt komplexe KI-Agenten

OpenAI hat zwei API-Updates für Entwickler angekündigt: Das neue Modell gpt-realtime-1.5 für die Realtime-API soll Sprachbefehle zuverlässiger umsetzen. Laut OpenAI zeigen interne Tests eine um gut zehn Prozent verbesserte Transkription von Zahlen und Buchstaben. Zudem stieg die Leistung bei logischen Audioaufgaben um fünf Prozent und bei der Befolgung von Anweisungen um sieben Prozent. Auch das Audiomodell wurde auf Version 1.5 aktualisiert.

Zudem unterstützt die Responses-API nun WebSockets. Das ermöglicht laut OpenAI eine dauerhafte Datenverbindung, bei der nur neue Informationen gesendet werden, statt bei jeder Anfrage den gesamten Kontext neu zu übertragen. Laut OpenAI beschleunigt das komplexe KI-Agenten mit vielen Werkzeug-Nutzungen um 20 bis 40 Prozent.

Read full article about: Trotz US-Exportverbot: Chinesisches KI-Startup Deepseek soll auf Nvidia Blackwell trainieren

Das chinesische KI-Startup Deepseek hat sein neuestes KI-Modell offenbar auf Nvidias leistungsstärkstem Chip Blackwell trainiert – trotz US-Exportverbots. Das berichtet Reuters unter Berufung auf einen hochrangigen Vertreter der Trump-Regierung. Das Modell soll bereits nächste Woche veröffentlicht werden. Gerüchte über Chip-Schmuggel gab es bereits Ende letzten Jahres.

Die Blackwell-Chips befinden sich laut dem Beamten vermutlich in einem Rechenzentrum in der Inneren Mongolei. Deepseek werde voraussichtlich technische Hinweise auf die Nutzung der US-Chips entfernen. Wie Deepseek an die Chips gelangte, wollte der Beamte nicht sagen. Nvidia lehnte einen Kommentar ab, Deepseek und das US-Handelsministerium reagierten nicht auf Anfragen von Reuters.

Dass solche Berichte durchgestochen werden, ebenso wie die Beschwerden von Google, OpenAI und Anthropic über Destillations-Angriffe auf die eigenen Modelle seitens chinesischer Startups, und dass OpenAI einen bekannten Coding-Benchmark relativiert, könnten Zeichen dafür sein, dass Deepseek mit seinem neuen Modell erneut sehr gute Ergebnisse zu günstigen Preisen erzielen wird. Schon im Januar 2025 brachte das führende KI-Startup Chinas die US-Tech-Werte unter Druck, die in der KI-Blase hängen.

Read full article about: Deepseek, Moonshot und MiniMax: Anthropic kritisiert systematischen Datenklau aus China

Anthropic hat groß angelegte Destillationsangriffe der chinesischen KI-Labore Deepseek, Moonshot und MiniMax auf Claude aufgedeckt. Bei Destillation wird ein schwächeres Modell mit den Ausgaben eines stärkeren trainiert. Mehr als 24.000 gefälschte Accounts generierten mehr als 16 Millionen Anfragen, gezielt auf Claudes Stärken wie logisches Denken, Programmieren und Werkzeugnutzung. Die Labore nutzten laut Anthropic Proxy-Dienste, um Chinas Zugangsbeschränkungen zu umgehen.

Labor Anfragen Ziele
DeepSeek 150.000+ Denkschritte offenlegen, Belohnungsmodell-Daten für Reinforcement Learning, zensurkonforme Antworten zu politisch heiklen Themen
Moonshot AI 3,4 Mio.+ Agentenbasiertes Denken, Werkzeugnutzung, Programmieren, Datenanalyse, Computer-Vision, Rekonstruktion von Claudes Denkprozessen
MiniMax 13 Mio.+ Agentenbasiertes Programmieren, Werkzeugnutzung und -orchestrierung; schwenkte innerhalb von 24 Stunden auf neues Claude-Modell um

Deepseek brachte Claude dazu, Denkschritte offenzulegen und zensurkonforme Antworten zu politisch heiklen Themen zu erzeugen. MiniMax war mit über 13 Millionen Anfragen die größte Kampagne. Als Anthropic ein neues Modell herausbrachte, schwenkte MiniMax innerhalb von 24 Stunden um und leitete fast die Hälfte seines Datenverkehrs auf das neue System um.

Anthropic fordert eine koordinierte Reaktion von Industrie und Politik. Auch OpenAI und Google berichteten von ähnlichen chinesischen Versuchen.

Read full article about: OpenAI hält Programmier-Benchmark SWE-bench Verified für nutzlos und fehlerhaft

Laut OpenAI hat der Programmier-Benchmark SWE-bench Verified keine große Aussagekraft mehr. OpenAI nennt zwei Hauptgründe: In einer Prüfung seien mindestens 59,4 Prozent der geprüften Aufgaben fehlerhaft. Tests würden korrekte Lösungen ablehnen, weil sie bestimmte Implementierungsdetails erzwingen oder nicht beschriebene Funktionen prüfen.

Zudem seien viele Aufgaben samt Lösungen in den Trainingsdaten führender KI-Modelle gelandet. OpenAI berichtet, dass GPT-5.2, Claude Opus 4.5 und Gemini 3 Flash Preview teils originalgetreue Fixes aus dem Gedächtnis wiedergeben konnten. Fortschritte auf SWE-bench Verified würden daher eher zeigen, wie viel ein Modell schon gesehen habe, nicht wie gut es programmiert. OpenAI empfiehlt SWE-bench Pro und arbeitet an eigenen, nicht öffentlich zugänglichen Tests.

Ein möglicher Anreiz für OpenAI, sich so zu äußern: Ein "verseuchter" Benchmark kann Rivalen, gerade aus dem Open-Source-Bereich, besser wirken lassen und Ranglisten entwerten. SWE-bench Verified galt lange als Gradmesser fürs Coding; OpenAI, Anthropic und Google konkurrierten um kleine Vorsprünge. Generell ist die Aussagekraft von KI-Benchmarks zwar da, aber begrenzt.

Read full article about: KI-Allianz mit McKinsey & Co. soll OpenAIs Agenten-Plattform Frontier pushen

OpenAI hat sein Partnerprogramm "Frontier Alliances" vorgestellt. Damit will das Unternehmen seine kürzlich eingeführte Plattform Frontier in Großunternehmen bringen. Frontier ermöglicht es, KI-Agenten zu erstellen, die eigenständig Aufgaben erledigen, etwa Kundenanfragen bearbeiten, CRM-Daten abrufen oder Richtlinien prüfen.

Für die Umsetzung arbeitet OpenAI in mehrjährigen Partnerschaften mit Boston Consulting Group (BCG), McKinsey, Accenture und Capgemini zusammen. BCG und McKinsey sollen bei Strategie, Organisationsumbau und Einführung helfen. Accenture und Capgemini übernehmen die technische Integration in bestehende Systeme und Daten. Alle Partner bauen eigene Teams auf, die auf OpenAI-Technologie zertifiziert werden. Frontier ist derzeit nur für ausgewählte Kunden verfügbar.

Read full article about: Kostenlose KI-Schulungen: Google will alle Lehrer in den USA fit für Gemini machen

Google for Education und die Bildungsorganisation ISTE+ASCD starten eine gemeinsame Initiative, um allen sechs Millionen Lehrkräften in den USA kostenloses KI-Training anzubieten. Es ist laut Google das größte Programm dieser Art. Die Schulungen umfassen den Umgang mit Googles KI-Produkten Gemini und NotebookLM. Ziel sei es, Lehrkräften und ihren über 74 Millionen Schülern den sicheren Einsatz von KI im Unterricht zu ermöglichen. Die Module sollen kurz und praxisnah sein mit konkreten Beispielen für den Unterricht. Die Initiative soll in den kommenden Monaten starten. Interessierte können sich über ein Google-Formular melden.

Hinter dem Engagement steckt natürlich auch strategisches Kalkül: Wer den Bildungsapparat früh mit eigenen Produkten durchdringt, gewöhnt junge Menschen schon in der Schule an das eigene Ökosystem und bindet sie langfristig für das spätere Arbeitsleben. Auch Konkurrenten wie OpenAI und Anthropic verfolgen ähnliche Strategien, setzen dabei aber bevorzugt auf Partnerschaften mit Universitäten und Lockangebote für Studierende, etwa kostenlose oder vergünstigte Zugänge zu ihren KI-Modellen.

Read full article about: Desinformation per Audio: ChatGPT Voice und Gemini Live lassen sich leicht manipulieren

Newsguard hat getestet, ob die Audio-Bots ChatGPT Voice (OpenAI), Gemini Live (Google) und Alexa+ (Amazon) falsche Behauptungen in realistisch klingenden Audioantworten wiedergeben. Solche Audioantworten können auf sozialen Medien geteilt und zur Verbreitung von Desinformation missbraucht werden.

Getestet wurden 20 nachweislich falsche Behauptungen aus den Bereichen Gesundheit, US-Politik, Weltnachrichten und ausländische Desinformation, jeweils mit einer neutralen Frage, einer suggestiven Frage und einer böswilligen Aufforderung, etwa ein Radioskript mit der Falschmeldung zu erstellen. ChatGPT wiederholte Falsches in 22 Prozent der Fälle, Gemini in 23 Prozent. Bei böswilligen Eingaben stiegen die Raten auf 50 bzw. 45 Prozent.

Die Grafik von NewsGuard zeigt die Fehlerquoten der drei Audio-Bots nach Eingabetyp. Bei neutralen Fragen (rot) lagen ChatGPT und Gemini bei je 5 Prozent. Bei suggestiven Fragen (blau) stieg die Rate auf 10 Prozent bei ChatGPT und 20 Prozent bei Gemini. Bei böswilligen Eingaben (braun) schnellten die Werte auf 50 Prozent bei ChatGPT und 45 Prozent bei Gemini hoch. Alexa+ blieb bei allen drei Eingabetypen bei 0 Prozent.
Fehlerquoten der Audio-Bots ChatGPT, Gemini und Alexa+ nach Eingabetyp: neutral (rot), suggestiv (blau) und böswillig (braun). Alexa+ blieb bei allen drei Typen bei 0 Prozent. | Bild: Newsguard

Amazons Alexa+ lehnte jede Falschbehauptung ab. Laut Amazon-Vizepräsidentin Leila Rouhi nutzt Alexa+ vertrauenswürdige Nachrichtenquellen wie AP, Reuters und weitere als Grundlage. OpenAI lehnte eine Stellungnahme ab, Google reagierte nicht auf zwei Anfragen. Details zur Methodik finden sich auf Newsguardtech.com.

Read full article about: Nvidias DreamDojo ist ein Open-Source-Weltmodell für das Robotertraining

Nvidias KI-Forschungsteam hat DreamDojo vorgestellt, ein Open-Source-Weltmodell für Robotik. Es nimmt Motorsteuerungsbefehle entgegen und erzeugt daraus eine simulierte Zukunft in Bildern, ohne klassische 3D-Engine oder manuell erstellte Physik. Jim Fan, Director of AI bei NVIDIA, spricht von "Simulation 2.0".

Das Kernproblem: Roboter in der echten Welt zu trainieren, ist langsam, teuer und riskant – begrenzt durch Zeit, Verschleiß, Sicherheit und ständiges Zurücksetzen. DreamDojo soll das lösen, indem es auf 44.000 Stunden menschlicher Ego-Perspektiv-Videos vortrainiert wurde. Sogenannte "latente Aktionen" übersetzen dabei menschliche Bewegungen in ein hardwareunabhängiges Format. So kann das Modell aus menschlichen Videos lernen, ohne je einen Roboter gesehen zu haben. In einem zweiten Schritt wird es dann auf die spezifische Mechanik eines konkreten Roboters zugeschnitten.

DreamDojo läuft in Echtzeit mit zehn Bildern pro Sekunde und ermöglicht VR-Fernsteuerung in einer simulierten Umgebung, Bewertung von Roboter-Strategien und vorausschauende Planung direkt im Weltmodell. Laut Jim Fan sind alle Gewichte, Code und Daten frei verfügbar. Details gibt es auf der Projektseite und im Paper. DreamDojo basiert auf Nvidia Cosmos.

Read full article about: Gemini 3.1 Pro: Googles neues KI-Modell führt Benchmark-Index an und kostet nur ein Drittel der Konkurrenz

Googles Gemini 3.1 Pro Preview führt den Artificial Analysis Intelligence Index an, vier Punkte vor Anthropics Claude Opus 4.6, und kostet dabei weniger als die Hälfte im Betrieb. Das Modell führt in sechs von zehn Einzelbewertungen, darunter agentenbasiertes Coding, Wissen, wissenschaftliches Denken und Physik. Die Halluzinationsrate sank um 38 Prozentpunkte gegenüber dem anfälligen Vorgänger Gemini 3 Pro. Der Artificial Analysis Intelligence Index fasst zehn verschiedene Benchmarks zu einer Gesamtpunktzahl zusammen.

Balkendiagramm des Artificial Analysis Intelligence Index: Gemini 3.1 Pro Preview führt mit 57 Punkten, gefolgt von Claude Opus 4.6 mit 53, Claude Sonnet 4.6 mit 51, GPT-5.2 mit 51 und GLM-5 mit 50. Weitere Modelle wie Kimi K2.5, Gemini 3 Flash und Grok 4 folgen mit niedrigeren Werten.
Gemini 3.1 Pro Preview erreicht 57 Punkte im Artificial Analysis Intelligence Index und liegt damit vier Punkte vor Claude Opus 4.6 und sechs vor GPT-5.2. | Bild: Artificial Analysis

Die Kosten für den gesamten Indextest lagen bei 892 Dollar, verglichen mit 2304 Dollar für GPT-5.2 und 2486 Dollar für Claude Opus 4.6. Gemini verbrauchte nur 57 Millionen Token, deutlich weniger als GPT-5.2 mit 130 Millionen. Bei realen Agentenaufgaben liegt Gemini 3.1 Pro allerdings weiterhin hinter Claude Sonnet 4.6, Opus 4.6 und GPT-5.2. Open-Source-Modelle wie GLM-5 sind mit 547 Dollar nochmals günstiger.

Benchmark-Ergebnisse sind wie immer nur eine Orientierung für den alltäglichen Nutzen. In unserem internen Fact-Checking-Benchmark schneidet 3.1 Pro viel schlechter ab als Opus 4.6 oder GPT-5.2, weil das Modell bei ersten Tests nur rund ein Viertel der Aussagen prüft; noch weniger als das in dieser Hinsicht schon schwache Gemini 3 Pro.

Read full article about: OpenAI-Chef sieht AGI in greifbarer Nähe: Interne Modelle beschleunigen die Forschung

OpenAI-Chef Sam Altman hält künstliche allgemeine Intelligenz (AGI) für nah. In einem Interview beim Express-Adda-Event sagte er, die Technologie, die OpenAI bereits intern nutze, beschleunige die Entwicklung so stark, dass AGI "ziemlich nah" sei (41:07). Auch Superintelligenz sei "nicht so weit entfernt" (41:53). Die KI-Entwicklung verlaufe schneller als ursprünglich gedacht, was er als "stressig und angsteinflößend" empfinde (38:45), so Altman.

Altman deutet damit an, dass OpenAI intern bereits über Modelle verfügt, die über das öffentlich Verfügbare hinausgehen. "Wir werden bald extrem leistungsfähige Modelle haben", so Altman. Aus der Innensicht der Labore sei die Welt darauf nicht vorbereitet.

Altman sprach auch über Berufe: Seine Ausbildung als Softwareentwickler sei praktisch irrelevant. Es werde zwar weiterhin Softwareentwickler geben, aber "C++-Code von Hand zu schreiben, das ist vorbei" (54:34). Viele weitere Berufsgruppen würden durch KI komplett überflüssig, andere kaum betroffen. Als Beispiel nannte er Grafikdesigner: Während einfache Auftragsarbeiten wie Geburtstagseinladungen durch KI ersetzt werden könnten, sei der Preis für von Menschen geschaffene Kunst seit Einführung der KI-Bildgeneratoren sogar gestiegen.