Anzeige
Skip to content

Forscherteam will unlogische KI-Grübelei mit neuen "Laws of Reasoning" beenden

Wenn ich bei einer einfachen Aufgabe länger grübeln würde als bei einer komplexen – und dabei auch noch schlechter abschneiden würde – würde mein Chef wohl Fragen stellen. Genau das passiert aber offenbar bei aktuellen Reasoning-Modellen wie Deepseek-R1. Ein Forscherteam hat sich das Problem nun genauer angeschaut und theoretische Gesetze formuliert, die beschreiben, wie KI-Modelle idealerweise „denken“ sollten.

Metas Pixio lernt durch Pixel-Rekonstruktion und übertrifft aufwendigere KI-Modelle

Weniger ist mehr: Metas neues Bildmodell Pixio schlägt komplexere Konkurrenten bei Tiefenschätzung und 3D-Rekonstruktion, obwohl es weniger Parameter hat. Die Trainingsmethode galt eigentlich als überholt.

Metas neues KI-Modell SAM Audio lässt Nutzer Töne in Videos anklicken

Hundegebell aus dem Straßenlärm filtern oder per Mausklick im Video eine Tonquelle isolieren: Mit SAM Audio bringt Meta sein bewährtes visuelles Segmentierungskonzept in die Audiowelt. Das Modell vereinfacht Audio-Bearbeitung durch Text, Klicks oder Zeitmarkierungen. Code und Gewichte sind frei verfügbar.

Read full article about: KI-Modell von Anthropic löst Aufgaben mit fast fünf Stunden Zeithorizont

Die KI-Forschungsorganisation METR hat neue Testergebnisse für Claude Opus 4.5 veröffentlicht. Das Modell von Anthropic erreicht einen sogenannten 50-Prozent-Zeithorizont von etwa 4 Stunden und 49 Minuten. Das ist der höchste bisher gemessene Wert. Der Zeithorizont beschreibt, wie lange Aufgaben sein können, die ein KI-Modell mit einer bestimmten Erfolgsrate (in diesem Fall 50 Prozent) löst.

METR

Auffällig ist der Unterschied zwischen verschiedenen Schwierigkeitsstufen. Der 80%-Zeithorizont liegt weiter bei nur 27 Minuten, ähnlich wie bei früheren Modellen. Laut METR zeigt das, dass Opus 4.5 besonders bei längeren Aufgaben besser abschneidet als Vorgänger. Die theoretische Obergrenze von mehr als 20 Stunden hält METR indes für unwahrscheinlich und führt sie eher auf fehlende Testdaten und statistische Unschärfe zurück als auf die tatsächliche Leistungsfähigkeit des Modells.

Wie jeder Benchmark hat auch die METR-Messung Einschränkungen, unter anderem, dass der Benchmark auf nur 14 Testfällen basiert. Eine ausführliche Analyse der Schwächen steht hier.