Kimi-VL: Sparsames Open-Source-Modell mit guter Bildverarbeitung

Das Open-Source-Modell Kimi-VL vom chinesischen Start-up Moonshot AI verarbeitet Bilder, Texte und Videos effizienter als viele größere Konkurrenten. Besonders gut schlägt es sich bei langen Dokumenten, komplexen Aufgaben und Bedienoberflächen.

Möglich wird das durch eine sogenannte Mixture-of-Experts-Architektur, bei der jeweils nur ein Teil des Modells aktiv ist. Trotz seiner vergleichsweise kleinen aktiven Sprachkomponente mit 2,8 Milliarden Parametern erzielt Kimi-VL in zahlreichen Tests Ergebnisse, die sich mit deutlich größeren Modellen messen lassen.

Geeignet für lange Dokumente und hochauflösende Bilder

Kimi-VL kann besonders umfangreiche Eingaben verarbeiten. Das maximale Kontextfenster umfasst 128.000 Token, was etwa dem Umfang eines ganzen Buchs oder eines langen Videos entspricht. In Benchmarks wie LongVideoBench oder MMLongBench-Doc erzielt das Modell damit sehr gute Werte.

Dreifache Bildanalyse: Luftbildvergleich urbaner Standorte, Toronto Skyline mit Rogers Centre, futuristische Cyberpunk-Spielszene mit Neonbeleuchtung. — Die KI-Plattform Kimi-VL demonstriert gute Fähigkeiten in der visuellen Analyse verschiedener Szenarien. | Bild: Moonshot AI

Ein weiterer Vorteil liegt in der Verarbeitung von hochauflösenden Bildern. Kimi-VL benötigt keine vorherige Aufteilung in kleinere Bildausschnitte, sondern kann komplette Screenshots oder komplexe Grafiken direkt analysieren.

Das Modell kann auch mathematische Bildaufgaben lösen oder handschriftliche Notizen erkennen. In einem Test analysierte es beispielsweise ein handgeschriebenes Manuskript und erkannte darin Bezüge zu Albert Einstein und konnte diese inhaltlich begründen.

Zwölfstufige Anleitung zur Aktivierung von — Der KI-gestützte Assistent führt systematisch durch den Prozess, von den grundlegenden Einstellungen bis zur finalen Aktivierung der Datenschutzfunktion. | Bild: Moonshot AI

Zudem eignet sich Kimi-VL für den Einsatz als Software-Assistent. Es kann grafische Benutzeroberflächen interpretieren und dabei helfen, digitale Aufgaben zu automatisieren. In Tests, bei denen das Modell etwa durch ein Browser-Menü navigieren oder Einstellungen ändern soll, schneidet es besser ab als viele vergleichbare Systeme, sogar besser als GPT-4o.

Kompakte Architektur mit starker Leistung

Im Vergleich zu anderen Open-Source-Modellen wie Qwen2.5-VL-7B oder Gemma-3-12B-IT überzeugt Kimi-VL mit seiner Effizienz. In 19 von 24 Benchmarks liegt es vorn – obwohl es deutlich weniger aktive Parameter nutzt. In den Tests MMBench-EN und AI2D erreicht es Werte, die sonst nur größere und kommerzielle Modelle erzielen.

Streudiagramm: Vergleich von KI-Modellen nach aktivierten Parametern und MathVision-Leistung, Kimi-VL-Thinking führend bei Effizienz. — Mit nur 2,8 Milliarden aktivierten Parametern übertrifft Kimi-VL-Thinking die Leistung deutlich größerer Modelle im MathVision-Benchmark. | Bild: Moonshot AI

Ein wichtiger Baustein dieser Leistung ist das Trainingsverfahren. Neben klassischem Supervised Fine-Tuning kommt auch Verstärkungslernen zum Einsatz. Eine spezielle Variante des Modells, Kimi-VL-Thinking, wurde zusätzlich darauf trainiert, längere Denkschritte zu durchlaufen. Dadurch verbessert sich die Leistung primär bei komplexen Aufgaben wie mathematischen Schlussfolgerungen.

Mehrere Balkendiagramme vergleichen die Leistung von KI-Modellen wie Kimi-VL-A3B, Qwen2.5-VL-7B in verschiedenen Benchmark-Tests. — Das Kimi-VL-A3B Modell erreicht durchgehend Spitzenwerte, besonders bei der Verarbeitung von Videos und Dokumenten. | Bild: Moonshot AI

Trotz der guten Ergebnisse bleibt das Modell in einigen Bereichen begrenzt. Für sehr sprachintensive oder stark spezialisierte Aufgaben reicht die vorhandene Modellgröße bisher nicht aus. Auch bei besonders langen Kontexten stößt es trotz des erweiterten Kontextfensters an technische Grenzen.

Empfehlung

KI-Forschung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Moonshot AI plant, Kimi-VL weiterzuentwickeln. Geplant sind größere Versionen, zusätzliche Trainingsdaten und ein verbessertes Feintuning. Langfristig soll daraus ein leistungsfähiges und dennoch ressourcenschonendes System entstehen, das sich für praktische Anwendungen in Forschung und Industrie eignet.

Anfang des Jahres veröffentlichte Moonshot AI mit Kimi k1.5 ein multimodales Modell für komplexes Schlussfolgern, das in Benchmarks bereits mit GPT-4o mithalten konnte. Es ist über die Weboberfläche kimi.ai verfügbar. Eine Demo des VL-Modells gibt es bei Hugging Face.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Kimi-VL: Sparsames Open-Source-Modell mit guter Bildverarbeitung

Geeignet für lange Dokumente und hochauflösende Bilder

Kompakte Architektur mit starker Leistung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

KI-Startup 01.AI veröffentlicht Open-Source-LLM, das Metas Llama 2 übertrifft

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Kimi-VL: Sparsames Open-Source-Modell mit guter Bildverarbeitung

Geeignet für lange Dokumente und hochauflösende Bilder

Kompakte Architektur mit starker Leistung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

KI-Startup 01.AI veröffentlicht Open-Source-LLM, das Metas Llama 2 übertrifft