Anzeige
Skip to content

KI-Agenten können Benchmarks "hacken": Warum Testergebnisse oft wenig aussagen

Benchmarks sollen objektiv messen, wie gut KI-Modelle sind. Doch laut einer Analyse von Epoch AI hängen die Ergebnisse stark davon ab, wie genau der Test durchgeführt wird. Die Forschungsorganisation identifiziert zahlreiche Variablen, die selten offengelegt werden, aber erheblichen Einfluss haben.

Urheberrechtlich geschützte Romane lassen sich laut Studien fast komplett aus KI-Sprachmodellen abrufen

Harry Potter, Herr der Ringe, Game of Thrones: Forscher extrahieren ganze Romane aus kommerziellen Sprachmodellen. Zwei der vier getesteten Systeme leisteten nicht einmal Widerstand. Die Ergebnisse könnten laufende Urheberrechtsklagen gegen KI-Unternehmen beeinflussen.

ByteDance gibt KI-Videomodellen ein Gedächtnis für längere Geschichten

ByteDance löst ein hartnäckiges Problem der KI-Videogenerierung: Charaktere, die von Szene zu Szene ihr Aussehen wechseln. Das neue System StoryMem merkt sich, wie Figuren und Umgebungen aussehen sollen und hält sie über eine ganze Geschichte hinweg stabil.

Forscherteam will unlogische KI-Grübelei mit neuen "Laws of Reasoning" beenden

Wenn ich bei einer einfachen Aufgabe länger grübeln würde als bei einer komplexen – und dabei auch noch schlechter abschneiden würde – würde mein Chef wohl Fragen stellen. Genau das passiert aber offenbar bei aktuellen Reasoning-Modellen wie Deepseek-R1. Ein Forscherteam hat sich das Problem nun genauer angeschaut und theoretische Gesetze formuliert, die beschreiben, wie KI-Modelle idealerweise „denken“ sollten.

Metas Pixio lernt durch Pixel-Rekonstruktion und übertrifft aufwendigere KI-Modelle

Weniger ist mehr: Metas neues Bildmodell Pixio schlägt komplexere Konkurrenten bei Tiefenschätzung und 3D-Rekonstruktion, obwohl es weniger Parameter hat. Die Trainingsmethode galt eigentlich als überholt.