Anzeige
Skip to content
Read full article about: Claude arbeitet jetzt eigenständig über Excel und PowerPoint hinweg

Anthropic lässt Claude nun eigenständig zwischen Excel und PowerPoint wechseln – etwa um eine Analyse durchzuführen und daraus direkt eine Präsentation zu bauen. Gleichzeitig erweitert das Unternehmen Cowork für Enterprise-Kunden um private Plugin-Marktplätze, über die Admins eigene Plugin-Sammlungen erstellen und gezielt an Teams verteilen können. Plugins verwandeln Claude in spezialisierte KI-Agenten für verschiedene Abteilungen. Neue Vorlagen gibt es unter anderem für HR, Design, Engineering, Finanzen und Vermögensverwaltung.

Besonders stark baut Anthropic den Finanzbereich aus: Neue MCP-Schnittstellen für FactSet und MSCI liefern Claude Echtzeit-Marktdaten und Index-Analysen, während Partner wie S&P Global (Capital IQ Pro) und LSEG eigene Plugins beigesteuert haben.

Hinzu kommen neue Verbindungen zu Drittanbieter-Software wie Google Workspace, Docusign, Salesforce Slack, FactSet und weiteren. Admins erhalten zudem mehr Kontrolle über Nutzerzugriffe sowie OpenTelemetry-Unterstützung zur Überwachung von Kosten und Nutzung. Die Excel-PowerPoint-Funktion ist als Forschungsvorschau für alle Bezahlpläne verfügbar. Cowork ist Anthropics Desktop-Tool für agentenbasierte Büroarbeit. Ende Januar kamen Plugins hinzu, die Claude zum Spezialisten für einzelne Abteilungen machen. Das Tool hat allerdings bekannte Sicherheitslücken.

Anzeige

Paradox der Automatisierung: KI soll Menschen gezielt Übungsaufgaben zuteilen

Statt nur die Maschinen zu kontrollieren, soll künstliche Intelligenz künftig den Menschen Übungsaufgaben stellen. Das Ziel: verhindern, dass wir selbst zum Sicherheitsrisiko werden, etwa durch Fehlbedienung, blindes Vertrauen oder mangelndes Verständnis.

Read full article about: OpenAI veröffentlicht Updates für Audio-API und beschleunigt komplexe KI-Agenten

OpenAI hat zwei API-Updates für Entwickler angekündigt: Das neue Modell gpt-realtime-1.5 für die Realtime-API soll Sprachbefehle zuverlässiger umsetzen. Laut OpenAI zeigen interne Tests eine um gut zehn Prozent verbesserte Transkription von Zahlen und Buchstaben. Zudem stieg die Leistung bei logischen Audioaufgaben um fünf Prozent und bei der Befolgung von Anweisungen um sieben Prozent. Auch das Audiomodell wurde auf Version 1.5 aktualisiert.

Zudem unterstützt die Responses-API nun WebSockets. Das ermöglicht laut OpenAI eine dauerhafte Datenverbindung, bei der nur neue Informationen gesendet werden, statt bei jeder Anfrage den gesamten Kontext neu zu übertragen. Laut OpenAI beschleunigt das komplexe KI-Agenten mit vielen Werkzeug-Nutzungen um 20 bis 40 Prozent.

Read full article about: Trotz US-Exportverbot: Chinesisches KI-Startup Deepseek soll auf Nvidia Blackwell trainieren

Das chinesische KI-Startup Deepseek hat sein neuestes KI-Modell offenbar auf Nvidias leistungsstärkstem Chip Blackwell trainiert – trotz US-Exportverbots. Das berichtet Reuters unter Berufung auf einen hochrangigen Vertreter der Trump-Regierung. Das Modell soll bereits nächste Woche veröffentlicht werden. Gerüchte über Chip-Schmuggel gab es bereits Ende letzten Jahres.

Die Blackwell-Chips befinden sich laut dem Beamten vermutlich in einem Rechenzentrum in der Inneren Mongolei. Deepseek werde voraussichtlich technische Hinweise auf die Nutzung der US-Chips entfernen. Wie Deepseek an die Chips gelangte, wollte der Beamte nicht sagen. Nvidia lehnte einen Kommentar ab, Deepseek und das US-Handelsministerium reagierten nicht auf Anfragen von Reuters.

Dass solche Berichte durchgestochen werden, ebenso wie die Beschwerden von Google, OpenAI und Anthropic über Destillations-Angriffe auf die eigenen Modelle seitens chinesischer Startups, und dass OpenAI einen bekannten Coding-Benchmark relativiert, könnten Zeichen dafür sein, dass Deepseek mit seinem neuen Modell erneut sehr gute Ergebnisse zu günstigen Preisen erzielen wird. Schon im Januar 2025 brachte das führende KI-Startup Chinas die US-Tech-Werte unter Druck, die in der KI-Blase hängen.

Anzeige
Read full article about: Deepseek, Moonshot und MiniMax: Anthropic kritisiert systematischen Datenklau aus China

Anthropic hat groß angelegte Destillationsangriffe der chinesischen KI-Labore Deepseek, Moonshot und MiniMax auf Claude aufgedeckt. Bei Destillation wird ein schwächeres Modell mit den Ausgaben eines stärkeren trainiert. Mehr als 24.000 gefälschte Accounts generierten mehr als 16 Millionen Anfragen, gezielt auf Claudes Stärken wie logisches Denken, Programmieren und Werkzeugnutzung. Die Labore nutzten laut Anthropic Proxy-Dienste, um Chinas Zugangsbeschränkungen zu umgehen.

Labor Anfragen Ziele
DeepSeek 150.000+ Denkschritte offenlegen, Belohnungsmodell-Daten für Reinforcement Learning, zensurkonforme Antworten zu politisch heiklen Themen
Moonshot AI 3,4 Mio.+ Agentenbasiertes Denken, Werkzeugnutzung, Programmieren, Datenanalyse, Computer-Vision, Rekonstruktion von Claudes Denkprozessen
MiniMax 13 Mio.+ Agentenbasiertes Programmieren, Werkzeugnutzung und -orchestrierung; schwenkte innerhalb von 24 Stunden auf neues Claude-Modell um

Deepseek brachte Claude dazu, Denkschritte offenzulegen und zensurkonforme Antworten zu politisch heiklen Themen zu erzeugen. MiniMax war mit über 13 Millionen Anfragen die größte Kampagne. Als Anthropic ein neues Modell herausbrachte, schwenkte MiniMax innerhalb von 24 Stunden um und leitete fast die Hälfte seines Datenverkehrs auf das neue System um.

Anthropic fordert eine koordinierte Reaktion von Industrie und Politik. Auch OpenAI und Google berichteten von ähnlichen chinesischen Versuchen.

Read full article about: OpenAI hält Programmier-Benchmark SWE-bench Verified für nutzlos und fehlerhaft

Laut OpenAI hat der Programmier-Benchmark SWE-bench Verified keine große Aussagekraft mehr. OpenAI nennt zwei Hauptgründe: In einer Prüfung seien mindestens 59,4 Prozent der geprüften Aufgaben fehlerhaft. Tests würden korrekte Lösungen ablehnen, weil sie bestimmte Implementierungsdetails erzwingen oder nicht beschriebene Funktionen prüfen.

Zudem seien viele Aufgaben samt Lösungen in den Trainingsdaten führender KI-Modelle gelandet. OpenAI berichtet, dass GPT-5.2, Claude Opus 4.5 und Gemini 3 Flash Preview teils originalgetreue Fixes aus dem Gedächtnis wiedergeben konnten. Fortschritte auf SWE-bench Verified würden daher eher zeigen, wie viel ein Modell schon gesehen habe, nicht wie gut es programmiert. OpenAI empfiehlt SWE-bench Pro und arbeitet an eigenen, nicht öffentlich zugänglichen Tests.

Ein möglicher Anreiz für OpenAI, sich so zu äußern: Ein "verseuchter" Benchmark kann Rivalen, gerade aus dem Open-Source-Bereich, besser wirken lassen und Ranglisten entwerten. SWE-bench Verified galt lange als Gradmesser fürs Coding; OpenAI, Anthropic und Google konkurrierten um kleine Vorsprünge. Generell ist die Aussagekraft von KI-Benchmarks zwar da, aber begrenzt.

Anzeige