Anzeige
Skip to content

Alibabas Qwen-Team trainiert KI-Bildverständnis mit automatisch erzeugten Denkaufgaben

Wenn KI-Modelle über Bilder nachdenken, schaukeln sich kleine Wahrnehmungsfehler über mehrere Denkschritte zu falschen Ergebnissen auf. Das Framework HopChain erzeugt mehrstufige Bildfragen, die dieses Problem gezielt adressieren und 20 von 24 Benchmarks verbessern. Dafür zerlegt es komplexe Fragen in verkettete Einzelschritte und zwingt das Modell, jedes Bildobjekt einzeln zu prüfen, bevor es eine Schlussfolgerung zieht.

Read full article about: Gefahr durch KI-Hacks: Offensive Cyberfähigkeit von KI-Modellen wächst rasant

Die AI-Safety-Research-Firma Lyptus Research hat eine neue Studie zur offensiven Cybersicherheitsfähigkeit von KI-Modellen veröffentlicht. Sie basiert auf der METR-Zeithorizont-Methode und einer Untersuchung mit zehn professionellen Sicherheitsexperten.

Die offensive Cyberfähigkeit von KI verdoppelt sich laut der Studie seit 2019 alle 9,8 Monate, seit 2024 sogar alle 5,7 Monate. Opus 4.6 und GPT-5.3 Codex lösen bei einem Token-Budget von zwei Millionen Aufgaben mit 50 Prozent Erfolg, für die menschliche Experten rund drei Stunden benötigen.

Diagramm zeigt den Anstieg der offensiven Cyberfähigkeit von KI-Modellen zwischen 2019 und 2026, gemessen am Zeithorizont in menschlicher Aufgabenzeit. Zwei Trendlinien verdeutlichen die Verdopplungszeiten von 9,8 und 5,7 Monaten.
Offensive Cyberfähigkeit von KI-Modellen im Zeitverlauf: Von GPT-2 (2019) bis Opus 4.6 und GPT-5.3 Codex (2026) stieg der Zeithorizont von 30 Sekunden auf rund drei Stunden. Die Verdopplungszeit beschleunigte sich von 9,8 Monaten (ab 2019) auf 5,7 Monate (ab 2024). | Bild: Lyptus Research

Bei höherem Token-Budget steigt die Leistung deutlich: GPT-5.3 Codex springt bei zehn Millionen Token von 3,1 auf 10,5 Stunden Zeithorizont. Die Forscher gehen daher davon aus, dass sie das tatsächliche Angriffsrisiko noch unterschätzen. Open-Source-Modelle liegen etwa 5,7 Monate hinter den geschlossenen Modellen.

Insgesamt flossen 291 Aufgaben in die Bewertung ein. Alle Daten sind auf GitHub und Hugging Face verfügbar, der umfassende Report hier.

Alibabas Qwen-Team bringt KI-Modelle mit neuem Algorithmus zum tieferen Nachdenken

Reinforcement Learning stößt bei Reasoning-Modellen an eine Grenze, weil alle Tokens gleich belohnt werden. Ein neuer Algorithmus von Alibabas Qwen-Team gewichtet stattdessen jeden Schritt danach, wie stark er die nachfolgende Argumentationskette beeinflusst. Er verdoppelt so die Länge der Denkprozesse.

KI-Modelle schreiben Roboter-Code fast so gut wie Menschen, aber nur mit Stützrädern

Ein neues Framework von Nvidia, UC Berkeley und Stanford untersucht systematisch, wie gut KI-Modelle Roboter per Code steuern können. Das Ergebnis: Ohne menschliche Abstraktionen scheitern selbst die besten Modelle, doch mit gezielter Laufzeit-Skalierung schließt sich die Lücke.