Infinity-MM: Chinesische KI-Forscher entwickeln leistungsstarkes Open-Source-Bildsprachmodell

Ein Team von Forschenden verschiedener chinesischer Institutionen hat mit Infinity-MM einen der größten öffentlich verfügbaren Datensätze für multimodale KI-Modelle erstellt und darauf ein neues Modell trainiert, das Spitzenleistungen erreicht.

Der Datensatz Infinity-MM setzt sich aus vier Hauptkategorien zusammen: 10 Millionen Bildbeschreibungen, 24,4 Millionen allgemeine visuelle Anweisungsdaten, 6 Millionen ausgewählte hochwertige Anweisungsdaten sowie 3 Millionen von GPT-4 und anderen KI-Modellen generierte Daten.

Bei der Datenerstellung nutzte das Team bestehende Open-Source-KI-Modelle: Das RAM++-Modell analysiert zunächst die Bilder und extrahiert wichtige Informationen. Auf dieser Basis werden dann passende Fragen generiert und die entsprechenden Antworten erstellt. Ein spezielles Klassifizierungssystem mit sechs Hauptkategorien soll dabei die Qualität und Vielfalt der generierten Daten sicherstellen.

Flussdiagramm: Prozess der synthetischen Datengenerierung mit Seed-Daten, Bildmarkierung, Instruktionsklassifikation und Antwortgenerierung. — Die Methode zur synthetischen Datengenerierung nutzt einen mehrschichtigen Prozess mit RAM++ und MiniCPM-V Modellen. Durch die Kombination von Bilderkennung, Instruktionsklassifikation und Antwortgenerierung werden präzise Trainingsdaten für KI-Systeme erzeugt. | Bild: Gu et al.

Vierstufiges Training für bessere Leistung

Das darauf trainierte Modell Aquila-VL-2B basiert auf der LLaVA-OneVision-Architektur und nutzt Qwen-2.5 als Sprachmodell sowie SigLIP für die Bildverarbeitung. Das Training erfolgte in vier aufeinander aufbauenden Phasen mit steigender Komplexität.

In der ersten Phase lernte das Modell grundlegende Bild-Text-Zuordnungen. In den weiteren Phasen folgten allgemeine visuelle Aufgaben, spezifische Anweisungen und schließlich die Integration der synthetisch generierten Daten. Dabei wurde auch die maximale Bildauflösung schrittweise erhöht.

Neue Maßstäbe bei Benchmark-Tests

In umfangreichen Tests erreichte Aquila-VL-2B trotz seiner vergleichsweise geringen Größe von nur zwei Milliarden Parametern Spitzenwerte. Beim MMStar-Benchmark für multimodales Verständnis erzielte es 54,9 Prozent - der beste Wert für ein Modell dieser Größenordnung.

Besonders beeindruckend sind die Ergebnisse bei mathematischen Aufgaben: Im MathVista-Test erreichte das Modell 59 Prozent und übertraf damit deutlich vergleichbare Systeme. Auch bei Tests zum allgemeinen Bildverständnis wie HallusionBench (43 Prozent) oder dem MMBench (75,2 Prozent) zeigte das Modell hervorragende Leistungen.

Die Forscher:innen konnten zudem nachweisen, dass die Integration der synthetisch generierten Daten die Leistung deutlich verbessert. Tests ohne diese zusätzlichen Daten führten zu einem Leistungsabfall von durchschnittlich 2,4 Prozentpunkten.

Liniendiagramm: Performance-Vergleich dreier KI-Modelle über Datengröße, Aquila-VL-2B zeigt steigenden Trend über drei Entwicklungsstufen. — Die Leistungsentwicklung des Aquila-VL-2B Modells übertrifft ab Stage 3 die konstanten Referenzwerte der Vergleichsmodelle InternVL2-2B und Qwen2VL-2B. Mit zunehmender Datenmenge steigt die Performance besonders in Stage 4 deutlich an. | Bild: Gu et al.

Das Team stellt sowohl den Datensatz als auch das Modell der Forschungsgemeinschaft zur Verfügung. Das Modell wurde auf Nvidia-A100-GPUs sowie chinesischen Chips trainiert.

Empfehlung

KI-Forschung

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Vision Language Models im Aufschwung

Die Entwicklung von Aquila-VL-2B fügt sich in einen breiteren Trend der KI-Forschung ein. Während geschlossene kommerzielle Systeme wie GPT-4o bisher oft bessere Leistungen zeigen, holen Open-Source-Modelle auf. Besonders die Nutzung synthetischer Trainingsdaten erweist sich als vielversprechend.

So konnte etwa das Open-Source-Modell Llava-1.5-7B durch das Training mit über 62.000 synthetisch generierten Beispielen bei bestimmten Aufgaben sogar GPT-4V übertreffen. Auch Meta setzt mit Llama-Modellen stark auf synthetische Daten.

Dennoch zeigen aktuelle Tests auch die Grenzen heutiger Vision Language Models auf. Die Bildverarbeitung ist in vielen Bereichen noch unzureichend, besonders beim Filtern spezifischer visueller Informationen aus großen Datenmengen. Auch die begrenzte Auflösung der visuellen Encoder stellt eine technische Beschränkung dar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Infinity-MM: Chinesische KI-Forscher entwickeln leistungsstarkes Open-Source-Bildsprachmodell

Vierstufiges Training für bessere Leistung

Neue Maßstäbe bei Benchmark-Tests

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Vision Language Models im Aufschwung

Reuters: Deepseek dominiert bei chinesischen Militär-Ausschreibungen

KI-Kennzeichnungspflicht in China: WeChat veröffentlicht Regeln

Alibaba baut eigenen KI-Chip für Inferenz

OpenAI stellt sich neu auf: Stiftung kontrolliert Milliardenkonzern, Microsoft größter Partner

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Infinity-MM: Chinesische KI-Forscher entwickeln leistungsstarkes Open-Source-Bildsprachmodell

Vierstufiges Training für bessere Leistung

Neue Maßstäbe bei Benchmark-Tests

Vision Language Models im Aufschwung

Artikel teilen

Bankverbindung