Inhalt
summary Zusammenfassung

Ein Team von Forschenden verschiedener chinesischer Institutionen hat mit Infinity-MM einen der größten öffentlich verfügbaren Datensätze für multimodale KI-Modelle erstellt und darauf ein neues Modell trainiert, das Spitzenleistungen erreicht.

Anzeige

Der Datensatz Infinity-MM setzt sich aus vier Hauptkategorien zusammen: 10 Millionen Bildbeschreibungen, 24,4 Millionen allgemeine visuelle Anweisungsdaten, 6 Millionen ausgewählte hochwertige Anweisungsdaten sowie 3 Millionen von GPT-4 und anderen KI-Modellen generierte Daten.

Bei der Datenerstellung nutzte das Team bestehende Open-Source-KI-Modelle: Das RAM++-Modell analysiert zunächst die Bilder und extrahiert wichtige Informationen. Auf dieser Basis werden dann passende Fragen generiert und die entsprechenden Antworten erstellt. Ein spezielles Klassifizierungssystem mit sechs Hauptkategorien soll dabei die Qualität und Vielfalt der generierten Daten sicherstellen.

Flussdiagramm: Prozess der synthetischen Datengenerierung mit Seed-Daten, Bildmarkierung, Instruktionsklassifikation und Antwortgenerierung.
Die Methode zur synthetischen Datengenerierung nutzt einen mehrschichtigen Prozess mit RAM++ und MiniCPM-V Modellen. Durch die Kombination von Bilderkennung, Instruktionsklassifikation und Antwortgenerierung werden präzise Trainingsdaten für KI-Systeme erzeugt. | Bild: Gu et al.

Vierstufiges Training für bessere Leistung

Das darauf trainierte Modell Aquila-VL-2B basiert auf der LLaVA-OneVision-Architektur und nutzt Qwen-2.5 als Sprachmodell sowie SigLIP für die Bildverarbeitung. Das Training erfolgte in vier aufeinander aufbauenden Phasen mit steigender Komplexität.

Anzeige
Anzeige

In der ersten Phase lernte das Modell grundlegende Bild-Text-Zuordnungen. In den weiteren Phasen folgten allgemeine visuelle Aufgaben, spezifische Anweisungen und schließlich die Integration der synthetisch generierten Daten. Dabei wurde auch die maximale Bildauflösung schrittweise erhöht.

Neue Maßstäbe bei Benchmark-Tests

In umfangreichen Tests erreichte Aquila-VL-2B trotz seiner vergleichsweise geringen Größe von nur zwei Milliarden Parametern Spitzenwerte. Beim MMStar-Benchmark für multimodales Verständnis erzielte es 54,9 Prozent - der beste Wert für ein Modell dieser Größenordnung.

Besonders beeindruckend sind die Ergebnisse bei mathematischen Aufgaben: Im MathVista-Test erreichte das Modell 59 Prozent und übertraf damit deutlich vergleichbare Systeme. Auch bei Tests zum allgemeinen Bildverständnis wie HallusionBench (43 Prozent) oder dem MMBench (75,2 Prozent) zeigte das Modell hervorragende Leistungen.

Die Forscher:innen konnten zudem nachweisen, dass die Integration der synthetisch generierten Daten die Leistung deutlich verbessert. Tests ohne diese zusätzlichen Daten führten zu einem Leistungsabfall von durchschnittlich 2,4 Prozentpunkten.

Liniendiagramm: Performance-Vergleich dreier KI-Modelle über Datengröße, Aquila-VL-2B zeigt steigenden Trend über drei Entwicklungsstufen.
Die Leistungsentwicklung des Aquila-VL-2B Modells übertrifft ab Stage 3 die konstanten Referenzwerte der Vergleichsmodelle InternVL2-2B und Qwen2VL-2B. Mit zunehmender Datenmenge steigt die Performance besonders in Stage 4 deutlich an. | Bild: Gu et al.

Das Team stellt sowohl den Datensatz als auch das Modell der Forschungsgemeinschaft zur Verfügung. Das Modell wurde auf Nvidia-A100-GPUs sowie chinesischen Chips trainiert.

Empfehlung

Vision Language Models im Aufschwung

Die Entwicklung von Aquila-VL-2B fügt sich in einen breiteren Trend der KI-Forschung ein. Während geschlossene kommerzielle Systeme wie GPT-4o bisher oft bessere Leistungen zeigen, holen Open-Source-Modelle auf. Besonders die Nutzung synthetischer Trainingsdaten erweist sich als vielversprechend.

So konnte etwa das Open-Source-Modell Llava-1.5-7B durch das Training mit über 62.000 synthetisch generierten Beispielen bei bestimmten Aufgaben sogar GPT-4V übertreffen. Auch Meta setzt mit Llama-Modellen stark auf synthetische Daten.

Dennoch zeigen aktuelle Tests auch die Grenzen heutiger Vision Language Models auf. Die Bildverarbeitung ist in vielen Bereichen noch unzureichend, besonders beim Filtern spezifischer visueller Informationen aus großen Datenmengen. Auch die begrenzte Auflösung der visuellen Encoder stellt eine technische Beschränkung dar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein chinesisches Forschungsteam hat den multimodalen Datensatz Infinity-MM mit 40 Millionen Bild-Text-Paaren zusammengestellt. Darin enthalten sind Bildbeschreibungen, visuelle Anweisungsdaten und synthetisch generierte Daten von KI-Modellen wie GPT-4o.
  • Auf diesem Datensatz trainierten die Forschenden das Modell Aquila-VL-2B, das trotz seiner vergleichsweise geringen Größe von 2 Milliarden Parametern in verschiedenen Benchmarks Spitzenleistungen erreichte, etwa bei mathematischen Aufgaben oder allgemeinem Bildverständnis.
  • Das vierstufige Training mit steigender Komplexität und die Integration synthetisch generierter Daten erwiesen sich als entscheidend für die Performance. Open-Source-Modelle hoeln so auch bei Vision-Aufgaben auf.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!