Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Newsguard hat getestet, ob die Audio-Bots ChatGPT Voice (OpenAI), Gemini Live (Google) und Alexa+ (Amazon) falsche Behauptungen in realistisch klingenden Audioantworten wiedergeben. Solche Audioantworten können auf sozialen Medien geteilt und zur Verbreitung von Desinformation missbraucht werden.
Getestet wurden 20 nachweislich falsche Behauptungen aus den Bereichen Gesundheit, US-Politik, Weltnachrichten und ausländische Desinformation, jeweils mit einer neutralen Frage, einer suggestiven Frage und einer böswilligen Aufforderung, etwa ein Radioskript mit der Falschmeldung zu erstellen. ChatGPT wiederholte Falsches in 22 Prozent der Fälle, Gemini in 23 Prozent. Bei böswilligen Eingaben stiegen die Raten auf 50 bzw. 45 Prozent.
Fehlerquoten der Audio-Bots ChatGPT, Gemini und Alexa+ nach Eingabetyp: neutral (rot), suggestiv (blau) und böswillig (braun). Alexa+ blieb bei allen drei Typen bei 0 Prozent. | Bild: Newsguard
Amazons Alexa+ lehnte jede Falschbehauptung ab. Laut Amazon-Vizepräsidentin Leila Rouhi nutzt Alexa+ vertrauenswürdige Nachrichtenquellen wie AP, Reuters und weitere als Grundlage. OpenAI lehnte eine Stellungnahme ab, Google reagierte nicht auf zwei Anfragen. Details zur Methodik finden sich auf Newsguardtech.com.
Nvidias KI-Forschungsteam hat DreamDojo vorgestellt, ein Open-Source-Weltmodell für Robotik. Es nimmt Motorsteuerungsbefehle entgegen und erzeugt daraus eine simulierte Zukunft in Bildern, ohne klassische 3D-Engine oder manuell erstellte Physik. Jim Fan, Director of AI bei NVIDIA, spricht von "Simulation 2.0".
Das Kernproblem: Roboter in der echten Welt zu trainieren, ist langsam, teuer und riskant – begrenzt durch Zeit, Verschleiß, Sicherheit und ständiges Zurücksetzen. DreamDojo soll das lösen, indem es auf 44.000 Stunden menschlicher Ego-Perspektiv-Videos vortrainiert wurde. Sogenannte "latente Aktionen" übersetzen dabei menschliche Bewegungen in ein hardwareunabhängiges Format. So kann das Modell aus menschlichen Videos lernen, ohne je einen Roboter gesehen zu haben. In einem zweiten Schritt wird es dann auf die spezifische Mechanik eines konkreten Roboters zugeschnitten.
DreamDojo läuft in Echtzeit mit zehn Bildern pro Sekunde und ermöglicht VR-Fernsteuerung in einer simulierten Umgebung, Bewertung von Roboter-Strategien und vorausschauende Planung direkt im Weltmodell. Laut Jim Fan sind alle Gewichte, Code und Daten frei verfügbar. Details gibt es auf der Projektseite und im Paper. DreamDojo basiert auf Nvidia Cosmos.
KI-Agenten sind laut Anthropic bislang nur im Coding einigermaßen angekommen
KI-Agenten sollen bald den Arbeitsalltag revolutionieren. Anthropics eigene Daten zeigen: Bislang ist das fast nur im Software-Engineering der Fall. Und selbst dort lassen die Nutzer die Agenten längst nicht so autonom arbeiten, wie es technisch möglich wäre.
Googles Gemini 3.1 Pro Preview führt den Artificial Analysis Intelligence Index an, vier Punkte vor Anthropics Claude Opus 4.6, und kostet dabei weniger als die Hälfte im Betrieb. Das Modell führt in sechs von zehn Einzelbewertungen, darunter agentenbasiertes Coding, Wissen, wissenschaftliches Denken und Physik. Die Halluzinationsrate sank um 38 Prozentpunkte gegenüber dem anfälligen Vorgänger Gemini 3 Pro. Der Artificial Analysis Intelligence Index fasst zehn verschiedene Benchmarks zu einer Gesamtpunktzahl zusammen.
Gemini 3.1 Pro Preview erreicht 57 Punkte im Artificial Analysis Intelligence Index und liegt damit vier Punkte vor Claude Opus 4.6 und sechs vor GPT-5.2. | Bild: Artificial Analysis
Die Kosten für den gesamten Indextest lagen bei 892 Dollar, verglichen mit 2304 Dollar für GPT-5.2 und 2486 Dollar für Claude Opus 4.6. Gemini verbrauchte nur 57 Millionen Token, deutlich weniger als GPT-5.2 mit 130 Millionen. Bei realen Agentenaufgaben liegt Gemini 3.1 Pro allerdings weiterhin hinter Claude Sonnet 4.6, Opus 4.6 und GPT-5.2. Open-Source-Modelle wie GLM-5 sind mit 547 Dollar nochmals günstiger.
Benchmark-Ergebnisse sind wie immer nur eine Orientierung für den alltäglichen Nutzen. In unserem internen Fact-Checking-Benchmark schneidet 3.1 Pro viel schlechter ab als Opus 4.6 oder GPT-5.2, weil das Modell bei ersten Tests nur rund ein Viertel der Aussagen prüft; noch weniger als das in dieser Hinsicht schon schwache Gemini 3 Pro.
OpenAI-Chef Sam Altman hält künstliche allgemeine Intelligenz (AGI) für nah. In einem Interview beim Express-Adda-Event sagte er, die Technologie, die OpenAI bereits intern nutze, beschleunige die Entwicklung so stark, dass AGI "ziemlich nah" sei (41:07). Auch Superintelligenz sei "nicht so weit entfernt" (41:53). Die KI-Entwicklung verlaufe schneller als ursprünglich gedacht, was er als "stressig und angsteinflößend" empfinde (38:45), so Altman.
Altman deutet damit an, dass OpenAI intern bereits über Modelle verfügt, die über das öffentlich Verfügbare hinausgehen. "Wir werden bald extrem leistungsfähige Modelle haben", so Altman. Aus der Innensicht der Labore sei die Welt darauf nicht vorbereitet.
Altman sprach auch über Berufe: Seine Ausbildung als Softwareentwickler sei praktisch irrelevant. Es werde zwar weiterhin Softwareentwickler geben, aber "C++-Code von Hand zu schreiben, das ist vorbei" (54:34). Viele weitere Berufsgruppen würden durch KI komplett überflüssig, andere kaum betroffen. Als Beispiel nannte er Grafikdesigner: Während einfache Auftragsarbeiten wie Geburtstagseinladungen durch KI ersetzt werden könnten, sei der Preis für von Menschen geschaffene Kunst seit Einführung der KI-Bildgeneratoren sogar gestiegen.
Anthropic erweitert Claude Code auf dem Desktop um Funktionen, die den Entwicklungsprozess stärker automatisieren. Die KI kann nun Entwicklungsserver starten und laufende Web-Apps direkt in der Oberfläche anzeigen, Fehler erkennen und selbstständig beheben.
Neu ist auch eine Code-Review-Funktion, die Änderungen prüft und Kommentare direkt in der Diff-Ansicht hinterlässt. Für GitHub-Projekte überwacht Claude Code Pull Requests im Hintergrund, behebt CI-Fehler automatisch und kann PRs nach bestandenen Tests eigenständig zusammenführen. So können Entwickler an neuen Aufgaben arbeiten, während Claude Code offene PRs im Hintergrund fertigstellt. Sitzungen lassen sich zwischen CLI, Desktop, Web und Mobilgerät fortsetzen. Die Updates sind ab sofort verfügbar.
OpenAI meldete Amokläuferin in Kanada trotz Warnsignalen in ChatGPT nicht der Polizei
Jesse Van Rootselaar hinterließ vor ihrem Amoklauf in Tumbler Ridge zahlreiche digitale Warnsignale, auch bei ChatGPT. Rund ein Dutzend OpenAI-Angestellte diskutierten intern darüber, die kanadische Polizei zu informieren. Die Führungsebene entschied sich dagegen. Der Fall offenbart ein Dilemma, das die gesamte Online- und speziell die KI-Chatbot-Branche betrifft.