Inhalt
summary Zusammenfassung

Der Technologiekonzern Tencent hat mit Hunyuan-Large-Vision ein multimodales KI-Modell veröffentlicht, das in einer Rangliste zum Bildverständnis den höchsten Platz aller chinesischen Modelle erreicht.

Anzeige

Das neue Vision-Modell nutzt eine Mixture-of-Experts-Architektur mit 389 Milliarden Parametern, von denen 52 Milliarden aktiv sind. Auf dem LMArena Vision Leaderboard belegt das Modell aktuell Platz 16 und erreicht damit ein Leistungsniveau vergleichbar mit Claude Sonnet 3.5. Die Spitzenplätze werden von GPT-5 und Gemini 2.5 Pro belegt.

Tabelle mit Rang, Modellnamen, Punktzahl ± Unsicherheit, Stimmenzahl und Anbieter multimodaler KI-Systeme.
Das Leaderboard zeigt die besten KI-Modelle für Bildaufgaben, bewertet durch Community-Abstimmungen im Direktvergleich. Die Rangliste entsteht daraus, wie oft Nutzer:innen ein Modell in anonymen Duellen bevorzugen. | Bild: LMArena Leaderboard/Screenshot by THE DECODER

Unter den chinesischen Modellen führt Hunyuan-Large-Vision die Rangliste an und schlägt auch das bisher hoch gehandelte Qwen2.5-VL in seiner größten Ausführung. Das System erreichte laut Tencent eine Durchschnittspunktzahl von 79,5 auf dem OpenCompass Academic Benchmark und soll besonders bei mehrsprachigen Aufgaben punkten.

Mehrere Balkendiagramme: Leistung von Hunyuan-Large-Vision, GPT-4o, Claude-3.7 und Qwen-2.5-VL72B in multimodalen Benchmarks.
Hunyuan-Large-Vision erzielt in fast allen Visual-QA-, Video-, Mathe-, OCR- und 3D-Benchmarks Spitzenwerte. Die zum Vergleich herangezogenen Modelle westlicher Unternehmen sind allerdings nicht mehr deren neueste Versionen. | Bild: Tencent

Tencent demonstrierte die Fähigkeiten des Modells anhand verschiedener Beispiele: Das System erkannte etwa die Blume Iris lactea korrekt, verfasste ein Gedicht basierend auf einem Bild der Seine, gab strategische Ratschläge für ein Go-Spiel und übersetzte Fragen ins Spanische. Im Vergleich zu vorherigen Vision-Modellen von Tencent soll Hunyuan-Vision-Large auch mit nicht so verbreiteten Sprachen gut umgehen können.

Anzeige
Anzeige
Vier Hunyuan-Large-Vision-Beispiele: Iris lactea-Erkennung, Seine-Quatrain, Go-Zugempfehlung, Tattoo-Statistik-Übersetzung
Vier Anwendungsfälle des Modells Hunyuan-Large-Vision verdeutlichen die Bandbreite multimodaler Aufgaben. | Bild: Tencent

Drei-Module-Architektur mit spezialisiertem Bildverarbeiter

Die technische Architektur besteht laut Tencent aus drei Hauptkomponenten: einem Vision Transformer mit einer Milliarde Parametern, der speziell für die Bildverarbeitung entwickelt wurde, einem Verbindungsmodul zwischen Bild- und Textverarbeitung sowie einem Sprachmodell nach dem Mixture-of-Experts-Prinzip.

Der Vision Transformer wurde nach Unternehmensangaben zunächst darauf trainiert, Zusammenhänge zwischen Bildern und Texten zu erkennen. Anschließend erfolgte ein Training mit über einer Billion Texteinheiten auf verschiedenen multimodalen Aufgaben. In Vergleichstests habe der Bildverarbeiter bessere Leistungen bei multimodalen Aufgaben gezeigt als andere weitverbreitete Modelle dieser Art.

Architekturdiagramm von Hunyuan-Large LLM (389 Mrd. Parameter) mit Mixture-of-Experts, nativer ViT und adaptivem MLP für multimodale Eingaben.
Das System kann Bilder, Videos und dreidimensionale Inhalte verarbeiten und zeigt laut Tencent besonders bei komplexen Aufgaben wie visuellem Schlussfolgern, Videoanalyse und räumlichem Verständnis gute Ergebnisse. | Bild: Tencent

Innovative Trainingsmethoden für multimodale Daten

Für das Training entwickelte Tencent nach eigenen Angaben eine Pipeline zur Erstellung hochwertiger Trainingsdaten, die vortrainierte KI-Modelle und spezialisierte Tools nutzt, um aus verrauschten Rohdaten qualitativ hochwertige Instruktionsdaten zu erstellen. Über 400 Milliarden Texteinheiten multimodaler Instruktionsdaten seien so generiert worden, die Bereiche wie visuelle Erkennung, Mathematik, Naturwissenschaften und Texterkennung abdecken.

Das Unternehmen setzte außerdem auf Rejection Sampling Fine-Tuning zur Verbesserung der Reasoning-Fähigkeiten. Bei diesem Verfahren werden mehrere Antworten generiert und nur die besten ausgewählt. Modell- und regelbasierte Tools würden eingesetzt, um Antworten mit falschen Schlussfolgerungen oder redundantem Inhalt herauszufiltern.

Eine weitere Trainingstechnik sei die Destillation von komplexen zu einfachen Denkprozessen. Dabei wird Wissen von einem Modell, das ausführliche Gedankenketten generiert, auf ein effizienteres Modell übertragen, das kürzere Antworten liefert, aber trotzdem gute Reasoning-Fähigkeiten behält.

Empfehlung

Load Balancing löst GPU-Verteilungsproblem

Für das Training nutzte Tencent das hauseigene Angel-PTM Framework. Da der Bildverarbeiter Bilder in ihrer ursprünglichen Auflösung verarbeitet, entstehe eine ungleichmäßige Rechenlast auf verschiedenen Grafikprozessoren. Das Unternehmen entwickelte daher eine Strategie zur gleichmäßigen Lastverteilung auf mehreren Ebenen, die die maximale Anzahl der von einer einzelnen GPU verarbeiteten Dateneinheiten um 18,8 Prozent reduzieren und damit die Trainingszeit verkürzen soll.

Hunyuan-Large-Vision ist ausschließlich per API über die Tencent Cloud verfügbar. Im Gegensatz zu anderen Veröffentlichungen, die noch Open Source waren, scheint sich das Unternehmen zumindest für dieses Modell von dieser Strategie abgewandt zu haben. Mit einer Größe von 389 Parametern wäre Hunyuan-Large-Vision aber vermutlich ohnehin nicht auf Consumer-Hardware ausführbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit Hunyuan-Large-Vision hat Tencent ein multimodales KI-Modell vorgestellt, das aktuell die Spitzenposition unter den chinesischen Bild-KI-Modellen auf dem LMArena Vision Leaderboard einnimmt.
  • Das System kombiniert einen spezialisierten Vision Transformer mit einem Mixture-of-Experts-Sprachmodell und verarbeitet damit Bilder, Videos und 3D-Inhalte.
  • Laut Tencent erzielt das Modell in Benchmarks für visuelles Schlussfolgern, Videoanalyse und räumliches Verständnis starke Ergebnisse. Es ist derzeit nur über die Tencent Cloud API verfügbar.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!