Inhalt
summary Zusammenfassung

Unabhängige Evaluationen zeigen, dass die neuen Llama 4 Modelle von Meta, Maverick und Scout, zwar in Standard-Benchmarks überzeugen, aber in realen Langkontext-Aufgaben hinter den Erwartungen zurückbleiben.

Anzeige

Im aggregierten "Intelligence Index" von Artificial Analysis erreichen die Modelle Werte von 49 (Maverick) und 36 (Scout). Maverick übertrifft damit Claude 3.7 Sonnet, bleibt aber hinter Deepseeks aktuellem V3 0324 zurück. Scout liegt auf dem Niveau von GPT-4o-mini und übertrifft Claude 3.5 Sonnet und Mistral Small 3.1.

Beide Meta-Modelle zeigen konsistente Leistungen über verschiedene Bewertungskategorien hinweg, ohne offensichtliche Schwächen im allgemeinen Reasoning, Coding oder Mathematik.

Balkendiagramm: Intelligence Index von 16 KI-Modellen, basierend auf 7 Evaluierungskriterien, Werteskala 24-53 Punkte.
Der "Intelligence Index" von Artificial Analysis bewertet KI-Modelle anhand von sieben standardisierten Tests. Deepseek dominiert mit 53 Punkten, gefolgt von GPT-4o mit 50 Punkten. Auf Platz 3 folgt Llama-4-Maverick. | Bild: Artificial Analysis

Die Effizienz des Maverick-Modells ist gut. Im Vergleich zum Deepseek-V3-Modell hat Maverick nur etwa die Hälfte der aktiven Parameter (17 Milliarden gegenüber 37 Milliarden) und etwa 60 Prozent der Gesamtparameter (402 Milliarden gegenüber 671 Milliarden). Zudem unterstützt Maverick als multimodales Modell auch Bildeingaben, während Deepseek V3 ein reines Sprachmodell ist.

Anzeige
Anzeige

Preislich positioniert Meta seine Modelle attraktiv. Laut Artificial Analysis, das sechs Modell-Hoster auswertet, liegen die Medianpreise bei 0,24/0,77 US-Dollar pro Million Input/Output Tokens für Maverick und 0,15/0,4 US-Dollar für Scout. Damit sind sie billiger als das schon preiswerte Deepseek-V3 und bis zu zehnmal günstiger als GPT-4o von OpenAI.

Balkendiagramm: Vergleich von Input- und Output-Preisen pro Million Token für 15 KI-Modelle, Output-Preise bis 15 USD.
Die derzeitigen Preisunterschiede zwischen den Input- und Outputkosten der verschiedenen KI-Modelle weisen erhebliche Spannen auf. Die neuen Lama-Modelle gehören zu den günstigeren. | Bild: Artificial Analysis

Kritik an Metas LMArena-Ergebnissen

Die Veröffentlichung von Llama 4 hat auch Kritik hervorgerufen. Einige Tester berichten, dass sich Llama 4 in der LMArena - einem Benchmark, den Meta stark für sein Marketing nutzt - drastisch anders verhält als auf anderen Plattformen. Dies gilt selbst dann, wenn der von Meta empfohlene Systemprompt verwendet wird.

Meta selbst gab bei der Veröffentlichung an, für diesen Benchmark eine "experimentelle Chat-Version" seines Maverick-Modells verwendet zu haben. Der Verdacht liegt also nahe, dass Meta diese Version des Modells so manipuliert hat, dass es von Menschen tendenziell besser bewertet wird - etwa durch besonders ausführliche, gut strukturierte Antworten mit übersichtlicher Formatierung.

In der Tat: Mit aktivierter "Style Control" von LMArena - einer Methode, die zwischen inhaltlicher Substanz und stilistischer Präsentation unterscheidet - fällt Llama 4 in den Rankings von Platz 2 auf Platz 5 zurück. Die Style-Control-Methode versucht, den Einfluss von Faktoren wie Antwortlänge und Formatierung auf die Bewertung zu berücksichtigen, um die inhaltliche Qualität besser isolieren zu können.

Leaderboard-Tabelle: KI-Modell-Ranking mit Style Control, zeigt Arena-Scores, Konfidenzintervalle und Lizenzen, Llama 4 auf Rang 5 mit 1307 Punkten.
Mit aktivierter Style Control landet Llama 4 Maverick nur auf Rang 5. | Bild: Screenshot LMArena.ai

Fairerweise muss man dazu sagen, dass auch die anderen Hersteller von KI-Modellen ihre Benchmarks auf diese Weise frisieren dürften.

Empfehlung

Schwache Leistung bei komplexen Langkontext-Aufgaben

Besonders enttäuschend schneiden die Llama-4-Modelle bei Tests der Plattform Fiction.live ab, die speziell das Verstehen von komplexen Langtextinhalten anhand vielschichtiger Geschichten testet.

Fiction.live argumentiert, dass ihre Tests realitätsnäher sind, da sie das tatsächliche Verständnis und nicht nur die Suchfähigkeit testen. Um eine Geschichte wirklich zu verstehen, müssen KI-Modelle Veränderungen im Laufe der Zeit verfolgen, logische Vorhersagen auf der Grundlage etablierter Indizien treffen und zwischen Informationen unterscheiden, die nur den Lesern bekannt sind, und Informationen, die auch den Charakteren bekannt sind.

Bei diesen anspruchsvollen Tests enttäuscht Llama 4. Maverick zeigt keine Verbesserung gegenüber dem bereits unterdurchschnittlichen Modell Llama 3.3 70B, während Scout als "geradezu katastrophal" beschrieben wird.

Tabelle mit Verständnisscores für KI-Modelle bei steigender Textlänge (0-120k Tokens), Gemini 2.5 führt mit 90,6%, Llama-Modelle unter 30% bei Maximallänge.
Im Fiction.Live Benchmark für Langkontext-Verständnis zeigt sich eine deutliche Leistungskluft. | Bild: Fiction.Live

Während Gemini 2.5 Pro selbst bei 120.000 Tokens noch eine Genauigkeit von 90,6 Prozent erreicht, fallen die Llama-Modelle drastisch ab - Maverick erreicht nur noch 28,1 Prozent und Scout sogar nur noch 15,6 Prozent.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Diese Ergebnisse stellen die Aussagen von Meta zur Langkontextfähigkeit ihrer Modelle infrage, nach denen Scout bis zu zehn Millionen Tokens verarbeiten können soll - es versagt aber bereits bei 128.000 Satzbausteinen. Auch Maverick ist nicht in der Lage, Dokumente in der angekündigten Größenordnung von einer Million Token konsistent auszuwerten.

Mehrere Studien haben bereits gezeigt, dass der Nutzen von großen Kontextfenstern für KI-Modelle überschätzt wird, da die Systeme nicht in der Lage sind, alle ihnen zur Verfügung stehenden Informationen gleichmäßig auszuwerten.

In der Praxis ist es daher oft besser, mit eher kleinen Kontexten bis maximal 128K zu arbeiten und die Quellen für diese kleinschrittigen KI-Prozesse zu optimieren. Beispielsweise sollte ein umfangreiches PDF in Kapitel aufgeteilt werden, anstatt es auf einmal in das Modell zu laden, um eine maximale Genauigkeit zu erreichen.

Meta reagiert auf Kritik

Meta hat inzwischen auf die unterschiedlichen Testergebnisse reagiert. Ahmad Al-Dahle, der bei Meta die Entwicklung generativer KI leitet, räumt ein, dass es Berichte über schwankende Qualität bei verschiedenen Diensten gibt. Dies führt er darauf zurück, dass die Modelle kurzfristig nach ihrer Fertigstellung veröffentlicht wurden und die öffentlichen Implementierungen noch Zeit bräuchten, um optimal eingestellt zu werden.

Al-Dahle weist zudem Vorwürfe zurück, Meta habe auf Testdatensätzen trainiert: "Das stimmt einfach nicht und wir würden so etwas nie tun." Meta arbeite weiter an Fehlerbehebungen und der Einbindung von Partnern. Das Unternehmen sei überzeugt, dass die Llama 4 Modelle einen bedeutenden Fortschritt darstellen und wolle mit der Community zusammenarbeiten, um ihr Potenzial zu erschließen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Unabhängige Tests zeigen, dass Metas neue KI-Modelle Llama 4 Maverick und Scout bei Standard-Benchmarks zwar gute Ergebnisse erzielen, aber bei komplexen Aufgaben mit längeren Textzusammenhängen enttäuschen.
  • Maverick erreicht bei einem realitätsnahen Langkontext-Test nur 28,1 Prozent Genauigkeit, Scout sogar lediglich 15,6 Prozent.
  • Trotz dieser Schwäche überzeugen die Modelle durch gleichmäßige Leistungen in allgemeinen Kategorien wie Logik, Programmierung und Mathematik; Maverick schneidet im Intelligence Index besser ab als Claude 3.7, während Scout immerhin GPT-4o-mini und Claude 3.5 schlägt.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!