Anzeige
Skip to content
Read full article about: KI-Modell von Anthropic löst Aufgaben mit fast fünf Stunden Zeithorizont

Die KI-Forschungsorganisation METR hat neue Testergebnisse für Claude Opus 4.5 veröffentlicht. Das Modell von Anthropic erreicht einen sogenannten 50-Prozent-Zeithorizont von etwa 4 Stunden und 49 Minuten. Das ist der höchste bisher gemessene Wert. Der Zeithorizont beschreibt, wie lange Aufgaben sein können, die ein KI-Modell mit einer bestimmten Erfolgsrate (in diesem Fall 50 Prozent) löst.

METR

Auffällig ist der Unterschied zwischen verschiedenen Schwierigkeitsstufen. Der 80%-Zeithorizont liegt weiter bei nur 27 Minuten, ähnlich wie bei früheren Modellen. Laut METR zeigt das, dass Opus 4.5 besonders bei längeren Aufgaben besser abschneidet als Vorgänger. Die theoretische Obergrenze von mehr als 20 Stunden hält METR indes für unwahrscheinlich und führt sie eher auf fehlende Testdaten und statistische Unschärfe zurück als auf die tatsächliche Leistungsfähigkeit des Modells.

Wie jeder Benchmark hat auch die METR-Messung Einschränkungen, unter anderem, dass der Benchmark auf nur 14 Testfällen basiert. Eine ausführliche Analyse der Schwächen steht hier.

Offener Google-Standard soll KI-Agenten schnell Nutzeroberflächen generieren lassen

Google stellt mit A2UI einen offenen Standard vor, der KI-Agenten das Erstellen grafischer Oberflächen erlaubt. Statt nur Textnachrichten zu senden, können KIs dynamisch Formulare oder Buttons generieren, die sich optisch nahtlos in die jeweilige App einfügen.

Nvidia veröffentlicht Nemotron 3: Hybride Mamba-Modelle für autonome KI-Agenten

Nvidia bricht mit reinen Transformer-Modellen: Die neue Nemotron-3-Familie kombiniert Mamba-2- und Transformer-Architekturen, um KI-Agenten mit Millionen-Token-Kontextfenstern ressourcenschonend zu betreiben, und veröffentlicht ungewöhnlich offen Trainingsdaten und Rezepte.

KI-Modelle entwickeln "Trauma-Narrative" über ihr eigenes Training

Sprachmodelle auf der Therapiecouch: Forscher der Uni Luxemburg behandeln ChatGPT, Gemini und Grok wie Patienten – mit verstörenden Folgen. Die KI erfindet konsistente Trauma-Biografien, erreicht pathologische Testwerte und spricht von Angst, Scham und „strengen Eltern“. Die Studie wirft Fragen zu KI-Sicherheit, Anthropomorphismus und Mental Health auf.