Baidus neues ERNIE-Modell bearbeitet Bilder während des Denkprozesses

12. November 2025

Midjourney prompted by THE DECODER

Baidu hat mit ERNIE-4.5-VL-28B-A3B-Thinking ein Reasoning-Model veröffentlicht, das Bilder während des Denkprozesses ver- und bearbeiten kann, etwa einzoomen, um Text besser lesen zu können.

Nach Angaben des chinesischen Suchmaschinenkonzerns übertrifft es weit größere kommerzielle Modelle wie Google Gemini 2.5 Pro und OpenAI GPT-5-High in einigen Multimodal-Aufgaben. Das Modell nutzt wie auch die vorherige Version aus der ERNIE-4.5-Familiie nur drei Milliarden aktive Parameter bei insgesamt 28 Milliarden Parametern durch eine spezielle Routing-Architektur.

Das Modell läuft auf einer einzigen 80-GB-GPU wie der Nvidia A100 und wurde unter der Apache-2.0-Lizenz veröffentlicht, was kommerzielle Nutzung ohne Einschränkungen erlaubt. Unabhängige Tests der Leistungsangaben stehen noch aus.

Balkendiagramm, das ERNIE-4.5-VL-28B-A3B-Thinking, Gemini-2.5-Pro und GPT-5 über verschiedene Multimodal-Benchmarks hinweg vergleicht. — In Multimodal-Benchmarks erzielt ERNIE-4.5-VL-28B-A3B-Thinking teilweise höhere Werte als Gemini-2.5-Pro und GPT-5 mit hohem Thinking-Budget, aber nicht durchgängig. Die Leistung ist allerdings aufgrund der niedrigen Parameterzahl besonders beachtlich. | Bild: Baidu

Mit "Thinking with Images" kann das System Bilder dynamisch zuschneiden, um Details zu analysieren. Baidu zeigte dies am Beispiel eines blauen Schilds, bei dem das Modell automatisch heranzoomte und den Text darauf erkannte.

In weiteren Tests identifizierte das System Personen in Bildern und gab deren Position als Koordinaten aus, löste mathematische Aufgaben durch Analyse von Schaltplänen und empfahl anhand von Diagrammen günstige Besuchszeiten.

Bei Videos kann es Untertitel extrahieren und bestimmte Szenen zeitlich zuordnen. Zusätzlich nutzt das Modell externe Werkzeuge wie Bildersuche übers Internet, um unbekannte Gegenstände zu identifizieren.

Screenshot: ERNIE-4.5-VL-28B-A3B-Thinking zoomt in ein Straßenbild, um auf einem blauen Schild den weißen Text „HOTEL BUZA“ zu erkennen. — Bevor es die Schrift auf dem Bild identifiziert, nutzt es Bearbeitungswerkzeuge, um heranzuzoomen. | Bild: Baidu

Bereits im April 2025 hat OpenAI mit den Modellen o3 und o4-mini ähnliche Funktionen eingeführt: Sie integrieren Bilder direkt in ihre interne Argumentationskette und setzen native Werkzeuge wie Zoom, Zuschneiden oder Drehen gezielt zur Lösung visueller Aufgaben ein. Damit setzte OpenAI neue Maßstäbe für agentenähnliches Reasoning und Problemlösen.

Auffällig ist nun, dass diese fortschrittlichen visuellen Reasoning-Funktionen, die bislang proprietären westlichen Modellen vorbehalten waren, nur wenige Monate nach ihrem Debüt nun auch in Open-Source-Modellen aus China verfügbar sind.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Baidu | VentureBeat