Inhalt
summary Zusammenfassung

Das Open-Source-Modell Kimi-VL vom chinesischen Start-up Moonshot AI verarbeitet Bilder, Texte und Videos effizienter als viele größere Konkurrenten. Besonders gut schlägt es sich bei langen Dokumenten, komplexen Aufgaben und Bedienoberflächen.

Anzeige

Möglich wird das durch eine sogenannte Mixture-of-Experts-Architektur, bei der jeweils nur ein Teil des Modells aktiv ist. Trotz seiner vergleichsweise kleinen aktiven Sprachkomponente mit 2,8 Milliarden Parametern erzielt Kimi-VL in zahlreichen Tests Ergebnisse, die sich mit deutlich größeren Modellen messen lassen.

Geeignet für lange Dokumente und hochauflösende Bilder

Kimi-VL kann besonders umfangreiche Eingaben verarbeiten. Das maximale Kontextfenster umfasst 128.000 Token, was etwa dem Umfang eines ganzen Buchs oder eines langen Videos entspricht. In Benchmarks wie LongVideoBench oder MMLongBench-Doc erzielt das Modell damit sehr gute Werte.

Dreifache Bildanalyse: Luftbildvergleich urbaner Standorte, Toronto Skyline mit Rogers Centre, futuristische Cyberpunk-Spielszene mit Neonbeleuchtung.
Die KI-Plattform Kimi-VL demonstriert gute Fähigkeiten in der visuellen Analyse verschiedener Szenarien. | Bild: Moonshot AI

Ein weiterer Vorteil liegt in der Verarbeitung von hochauflösenden Bildern. Kimi-VL benötigt keine vorherige Aufteilung in kleinere Bildausschnitte, sondern kann komplette Screenshots oder komplexe Grafiken direkt analysieren.

Anzeige
Anzeige

Das Modell kann auch mathematische Bildaufgaben lösen oder handschriftliche Notizen erkennen. In einem Test analysierte es beispielsweise ein handgeschriebenes Manuskript und erkannte darin Bezüge zu Albert Einstein und konnte diese inhaltlich begründen.

Zwölfstufige Anleitung zur Aktivierung von
Der KI-gestützte Assistent führt systematisch durch den Prozess, von den grundlegenden Einstellungen bis zur finalen Aktivierung der Datenschutzfunktion. | Bild: Moonshot AI

Zudem eignet sich Kimi-VL für den Einsatz als Software-Assistent. Es kann grafische Benutzeroberflächen interpretieren und dabei helfen, digitale Aufgaben zu automatisieren. In Tests, bei denen das Modell etwa durch ein Browser-Menü navigieren oder Einstellungen ändern soll, schneidet es besser ab als viele vergleichbare Systeme, sogar besser als GPT-4o.

Kompakte Architektur mit starker Leistung

Im Vergleich zu anderen Open-Source-Modellen wie Qwen2.5-VL-7B oder Gemma-3-12B-IT überzeugt Kimi-VL mit seiner Effizienz. In 19 von 24 Benchmarks liegt es vorn – obwohl es deutlich weniger aktive Parameter nutzt. In den Tests MMBench-EN und AI2D erreicht es Werte, die sonst nur größere und kommerzielle Modelle erzielen.

Streudiagramm: Vergleich von KI-Modellen nach aktivierten Parametern und MathVision-Leistung, Kimi-VL-Thinking führend bei Effizienz.
Mit nur 2,8 Milliarden aktivierten Parametern übertrifft Kimi-VL-Thinking die Leistung deutlich größerer Modelle im MathVision-Benchmark. | Bild: Moonshot AI

Ein wichtiger Baustein dieser Leistung ist das Trainingsverfahren. Neben klassischem Supervised Fine-Tuning kommt auch Verstärkungslernen zum Einsatz. Eine spezielle Variante des Modells, Kimi-VL-Thinking, wurde zusätzlich darauf trainiert, längere Denkschritte zu durchlaufen. Dadurch verbessert sich die Leistung primär bei komplexen Aufgaben wie mathematischen Schlussfolgerungen.

Mehrere Balkendiagramme vergleichen die Leistung von KI-Modellen wie Kimi-VL-A3B, Qwen2.5-VL-7B in verschiedenen Benchmark-Tests.
Das Kimi-VL-A3B Modell erreicht durchgehend Spitzenwerte, besonders bei der Verarbeitung von Videos und Dokumenten. | Bild: Moonshot AI

Trotz der guten Ergebnisse bleibt das Modell in einigen Bereichen begrenzt. Für sehr sprachintensive oder stark spezialisierte Aufgaben reicht die vorhandene Modellgröße bisher nicht aus. Auch bei besonders langen Kontexten stößt es trotz des erweiterten Kontextfensters an technische Grenzen.

Empfehlung

Moonshot AI plant, Kimi-VL weiterzuentwickeln. Geplant sind größere Versionen, zusätzliche Trainingsdaten und ein verbessertes Feintuning. Langfristig soll daraus ein leistungsfähiges und dennoch ressourcenschonendes System entstehen, das sich für praktische Anwendungen in Forschung und Industrie eignet.

Anfang des Jahres veröffentlichte Moonshot AI mit Kimi k1.5 ein multimodales Modell für komplexes Schlussfolgern, das in Benchmarks bereits mit GPT-4o mithalten konnte. Es ist über die Weboberfläche kimi.ai verfügbar. Eine Demo des VL-Modells gibt es bei Hugging Face.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Open-Source-Modell Kimi-VL von Moonshot AI verarbeitet Bilder, Texte und Videos mit nur 2,8 Milliarden aktiven Parametern effizienter als größere Konkurrenten und übertrifft in 19 von 24 Benchmarks vergleichbare Modelle.
  • Das Modell kann dank eines Kontextfensters von 128.000 Token ganze Bücher oder lange Videos verarbeiten, hochauflösende Bilder ohne vorherige Aufteilung analysieren und komplexe Aufgaben wie mathematische Bildaufgaben oder die Erkennung handschriftlicher Notizen bewältigen.
  • Mit seiner Mixture-of-Experts-Architektur und speziellen Trainingsverfahren wie Supervised Fine-Tuning und Verstärkungslernen eignet sich Kimi-VL besonders gut als Software-Assistent, der grafische Benutzeroberflächen interpretieren und bei der Automatisierung digitaler Aufgaben helfen kann.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!