Anzeige
Skip to content

KI-Modell DeepEyesV2 nutzt Werkzeuge statt Wissen - und schlägt größere Konkurrenz

Image description
Xiaohongshu

Kurz & Knapp

  • Chinesische Forschende von Xiaohongshu haben mit DeepEyesV2 ein multimodales KI-Modell vorgestellt, das Bilder analysiert, Code ausführt und das Web durchsucht.
  • Es zeigt besonders bei Aufgaben, die mehrere Fähigkeiten koordinieren, Verbesserungen gegenüber anderen Open-Source-Modellen.
  • DeepEyesV2 ist frei verfügbar auf Hugging Face und Github und unterstreicht die Ambitionen von Xiaohongshu, sich als ernst zu nehmender Anbieter im Bereich multimodaler KI-Agenten zu etablieren.

Chinesische Forschende haben ein multimodales KI-Modell entwickelt, das Bilder analysiert, Code ausführt und das Web durchsucht. Statt mit purem Wissen schlägt DeepEyesV2 größere Modelle mit intelligenter Werkzeugnutzung. 

Bei ersten Experimenten stieß das Forschungsteam von Xiaohongshu auf ein grundlegendes Problem. Direktes Reinforcement Learning allein führt nicht zu stabiler Werkzeugnutzung bei multimodalen Aufgaben. Die Modelle versuchten zunächst, Python-Code für Bildanalysen zu generieren, produzierten aber oft fehlerhafte Ausgaben. Mit fortschreitendem Training umgingen sie die Werkzeugnutzung ganz.

Multimodale Werkzeugnutzung erfordert neues Training

Diese Erkenntnisse führten zu einer zweistufigen Trainingspipeline. Eine Cold-Start-Phase etabliert grundlegende Muster für die Kombination von Bildverständnis und Werkzeugnutzung, gefolgt von Reinforcement Learning zur Verfeinerung.

Vier Panels mit Beispielen für Tool-Ausführungsfehler, falsche Tool-Wahl und Ausgabe-Parsing-Fehler bei DeepEyesV2
Analyse typischer Fehlertypen bei DeepEyesV2-Toolaufrufen: Ausführungsfehler durch falsche Region, Tool-Auswahlfehler und Parsing-Fehler bei Such- oder Crop-Ausgaben. | Bild: Xiaohongshu

Das Team verwendete führende Modelle wie Gemini 2.5 Pro, GPT-4o und Claude Sonnet 4 zur Erstellung von Lösungswegen und behielt nur Trajektorien mit korrekten Antworten und fehlerfreiem Code. Das Belohnungssystem für das Reinforcement Learning beschränkt sich auf zwei einfache Komponenten, nämlich Genauigkeits- und Format-Belohnungen.

Anzeige
DEC_D_Incontent-1

DeepEyesV2 nutzt drei Werkzeugkategorien speziell für multimodale Aufgaben. Code-Ausführung ermöglicht Bildoperationen und numerische Analysen, Bildsuche findet visuell ähnliche Inhalte und Textsuche liefert ergänzende Informationen zu visuellen Inhalten.

Flussdiagramm der DeepEyesV2-Pipeline mit Codeausführung, Bild- und Textsuche in iterativer Tool-Integration
DeepEyesV2 verknüpft Bildoperationen, Python-Codeausführung und Bild-/Textsuche in einem Loop, um multimodale Anfragen adaptiv zu beantworten. | Bild: Xiaohongshu

Neue Benchmark testet koordinierte Bild-Werkzeug-Nutzung

Die Forschenden entwickelten RealX-Bench, einen Benchmark, der explizit die Koordination von Bildwahrnehmung, Websuche und logischem Denken testet.

Ein Beispiel aus der Studie verdeutlicht die Komplexität: Das Modell soll eine Blume in einem Foto identifizieren. Dazu schneidet es zunächst die relevante Bildregion aus, um Details besser zu erkennen. Anschließend startet es eine visuelle Websuche mit dem ausgeschnittenen Bild, um ähnliche Blumen zu finden. Schließlich kombiniert es die gefundenen Informationen, um die genaue Art zu bestimmen.

Balkendiagramm mit Erkennungs-, Reasoning-, Such- und Integrations-Accuracy verschiedener Modelle plus DeepEyesV2-Crop+Search-Beispiel zur Blumenartbestimmung
Das Fallbeispiel illustriert, wie DeepEyesV2 per Zuschneiden, Bild- und Textsuche die genaue Blumenart ("moth orchid") ermittelt. | Bild: Xiaohongshu

Diese mehrstufige Herangehensweise zeigt, warum bestehende KI-Modelle an ihre Grenzen stoßen. Die Ergebnisse offenbaren eine erhebliche Leistungslücke zwischen KI und Menschen. Selbst das beste proprietäre Modell erreichte nur 46 Prozent Genauigkeit, während Menschen 70 Prozent erzielten.

Anzeige
DEC_D_Incontent-2

Besonders problematisch ist die Koordination aller drei Fähigkeiten. Laut der Studie sank Geminis Genauigkeit bei Aufgaben, die alle drei Bereiche erfordern, von 46 auf nur 27,8 Prozent. Diese Diskrepanz zeigt, dass aktuelle Modelle zwar einzelne Fähigkeiten beherrschen, aber bei deren Integration versagen können.

Illustration der VLLM-Gedankenkette: Der Benutzer stellt eine Bildabfrage, der Assistent schneidet das Bild zu und sucht nach Ergebnissen, die „Capybara” identifizieren.
Vor der Websuche schneidet DeepEyesV2 das Bild erst auf den gewünschten Bereich zu. | Bild: Xiaohongshu

DeepEyesV2 erzielte 28,3 Prozent Gesamtgenauigkeit und lag damit vor seinem Basismodell Qwen2.5-VL-7B mit 22,3 Prozent, aber hinter den größeren Varianten mit 32 beziehungsweise 72 Milliarden Parametern. Bei Aufgaben, die alle drei Fähigkeiten koordinieren müssen, übertraf DeepEyesV2 jedoch andere Open-Source-Modelle.

Die Analyse zeigte auch, dass Suchfunktionen die Genauigkeit erheblich verbessern, wobei Textsuche größere Verbesserungen bringt als Bildsuche. Dies deutet darauf hin, dass aktuelle Modelle noch Schwierigkeiten haben, visuelle Suchergebnisse effektiv zu integrieren.

Werkzeugnutzung gleicht Größennachteile aus

Der eigentliche Durchbruch von DeepEyesV2 zeigt sich in spezialisierten Benchmarks. Bei mathematischen Denkaufgaben erreichte das Modell 52,7 Prozent Genauigkeit auf MathVerse, eine Steigerung von 7,1 Prozentpunkten gegenüber dem Basismodell.

Auch bei suchorientierten Aufgaben zeigen sich Verbesserungen. DeepEyesV2 erzielte 63,7 Prozent auf MMSearch und übertraf damit das spezialisierte MMSearch-R1-Modell mit 53,8 Prozent. Bei alltäglichen Bildverständnisaufgaben schlug das 7-Milliarden-Parameter-Modell teilweise sogar Qwen2.5-VL-32B, das mehr als viermal so viele Parameter besitzt.

| Bild: Xiaohongshu

Diese Ergebnisse zeigen, dass geschickte Werkzeugnutzung Größennachteile ausgleichen kann. Statt durch mehr Parameter wird die Leistung durch die Fähigkeit gesteigert, externe Ressourcen gezielt einzusetzen.

Aufgabenabhängige Strategien bei visuellen Problemen

Die Analyse der Werkzeugnutzung zeigte deutliche aufgabenspezifische Muster. Bei visuellen Wahrnehmungsaufgaben extrahiert das Modell relevante Bildregionen; bei mathematischen Problemen mit Diagrammen kombiniert es Bildanalyse mit numerischen Berechnungen. Wissensintensive visuelle Fragen beantwortet es, indem es gezielte Websuchen auf Basis der Bildinhalte startet.

Nach dem Reinforcement-Learning-Training (RL-Training) entwickelte das Modell ein adaptiveres Verhalten. Die Häufigkeit der Werkzeugnutzung nahm deutlich ab – ein Hinweis darauf, dass das Modell gelernt hat, Hilfsmittel nur bei Bedarf einzusetzen. Die weiterhin hohe Varianz bei der Anzahl der Werkzeugaufrufe deutet jedoch auf flexible, aufgabenspezifische Strategien hin.

Das chinesische Unternehmen Xiaohongshu hat sich erst vor wenigen Monaten mit der Veröffentlichung seines ersten Open-Source-Sprachmodells auf der weltweiten KI-Landkarte positioniert. dots.llm1 erzielte in mehreren Benchmarks konkurrenzfähige Ergebnisse und übertrifft Modelle von Alibaba und Deepseek hinsichtlich Effizienz. Auch das Zeichenerkennungsmodell dots.ocr überzeugte in dieser Hinsicht.

Das im Mai veröffentlichte DeepEyes verband bereits Reasoning-Fähigkeiten mit multimodalem Verständnis. DeepEyesV2 führt diesen Ansatz fort und stärkt die Bemühungen, diese Basistechniken in agentischen Umgebungen sinnvoll zu verknüpfen. Xiaohongshu, hierzulande auch unter dem Namen Rednote bekannt, betreibt ähnlich wie Tiktok eine große chinesische Social-Media- und E-Commerce-Plattform.

Das Modell DeepEyesV2 ist auf Hugging Face und GitHub unter der Apache-Lizenz 2.0 verfügbar und darf auch kommerziell genutzt werden.

Quelle: Arxiv | Github