Unabhängige Evaluationen zeigen, dass die neuen Llama 4 Modelle von Meta, Maverick und Scout, zwar in Standard-Benchmarks überzeugen, aber in realen Langkontext-Aufgaben hinter den Erwartungen zurückbleiben.
Im aggregierten "Intelligence Index" von Artificial Analysis erreichen die Modelle Werte von 49 (Maverick) und 36 (Scout). Maverick übertrifft damit Claude 3.7 Sonnet, bleibt aber hinter Deepseeks aktuellem V3 0324 zurück. Scout liegt auf dem Niveau von GPT-4o-mini und übertrifft Claude 3.5 Sonnet und Mistral Small 3.1.
Beide Meta-Modelle zeigen konsistente Leistungen über verschiedene Bewertungskategorien hinweg, ohne offensichtliche Schwächen im allgemeinen Reasoning, Coding oder Mathematik.

Die Effizienz des Maverick-Modells ist gut. Im Vergleich zum Deepseek-V3-Modell hat Maverick nur etwa die Hälfte der aktiven Parameter (17 Milliarden gegenüber 37 Milliarden) und etwa 60 Prozent der Gesamtparameter (402 Milliarden gegenüber 671 Milliarden). Zudem unterstützt Maverick als multimodales Modell auch Bildeingaben, während Deepseek V3 ein reines Sprachmodell ist.
Preislich positioniert Meta seine Modelle attraktiv. Laut Artificial Analysis, das sechs Modell-Hoster auswertet, liegen die Medianpreise bei 0,24/0,77 US-Dollar pro Million Input/Output Tokens für Maverick und 0,15/0,4 US-Dollar für Scout. Damit sind sie billiger als das schon preiswerte Deepseek-V3 und bis zu zehnmal günstiger als GPT-4o von OpenAI.

Kritik an Metas LMArena-Ergebnissen
Die Veröffentlichung von Llama 4 hat auch Kritik hervorgerufen. Einige Tester berichten, dass sich Llama 4 in der LMArena - einem Benchmark, den Meta stark für sein Marketing nutzt - drastisch anders verhält als auf anderen Plattformen. Dies gilt selbst dann, wenn der von Meta empfohlene Systemprompt verwendet wird.
Meta selbst gab bei der Veröffentlichung an, für diesen Benchmark eine "experimentelle Chat-Version" seines Maverick-Modells verwendet zu haben. Der Verdacht liegt also nahe, dass Meta diese Version des Modells so manipuliert hat, dass es von Menschen tendenziell besser bewertet wird - etwa durch besonders ausführliche, gut strukturierte Antworten mit übersichtlicher Formatierung.
In der Tat: Mit aktivierter "Style Control" von LMArena - einer Methode, die zwischen inhaltlicher Substanz und stilistischer Präsentation unterscheidet - fällt Llama 4 in den Rankings von Platz 2 auf Platz 5 zurück. Die Style-Control-Methode versucht, den Einfluss von Faktoren wie Antwortlänge und Formatierung auf die Bewertung zu berücksichtigen, um die inhaltliche Qualität besser isolieren zu können.

Fairerweise muss man dazu sagen, dass auch die anderen Hersteller von KI-Modellen ihre Benchmarks auf diese Weise frisieren dürften.
Schwache Leistung bei komplexen Langkontext-Aufgaben
Besonders enttäuschend schneiden die Llama-4-Modelle bei Tests der Plattform Fiction.live ab, die speziell das Verstehen von komplexen Langtextinhalten anhand vielschichtiger Geschichten testet.
Fiction.live argumentiert, dass ihre Tests realitätsnäher sind, da sie das tatsächliche Verständnis und nicht nur die Suchfähigkeit testen. Um eine Geschichte wirklich zu verstehen, müssen KI-Modelle Veränderungen im Laufe der Zeit verfolgen, logische Vorhersagen auf der Grundlage etablierter Indizien treffen und zwischen Informationen unterscheiden, die nur den Lesern bekannt sind, und Informationen, die auch den Charakteren bekannt sind.
Bei diesen anspruchsvollen Tests enttäuscht Llama 4. Maverick zeigt keine Verbesserung gegenüber dem bereits unterdurchschnittlichen Modell Llama 3.3 70B, während Scout als "geradezu katastrophal" beschrieben wird.

Während Gemini 2.5 Pro selbst bei 120.000 Tokens noch eine Genauigkeit von 90,6 Prozent erreicht, fallen die Llama-Modelle drastisch ab - Maverick erreicht nur noch 28,1 Prozent und Scout sogar nur noch 15,6 Prozent.
Diese Ergebnisse stellen die Aussagen von Meta zur Langkontextfähigkeit ihrer Modelle infrage, nach denen Scout bis zu zehn Millionen Tokens verarbeiten können soll - es versagt aber bereits bei 128.000 Satzbausteinen. Auch Maverick ist nicht in der Lage, Dokumente in der angekündigten Größenordnung von einer Million Token konsistent auszuwerten.
Mehrere Studien haben bereits gezeigt, dass der Nutzen von großen Kontextfenstern für KI-Modelle überschätzt wird, da die Systeme nicht in der Lage sind, alle ihnen zur Verfügung stehenden Informationen gleichmäßig auszuwerten.
In der Praxis ist es daher oft besser, mit eher kleinen Kontexten bis maximal 128K zu arbeiten und die Quellen für diese kleinschrittigen KI-Prozesse zu optimieren. Beispielsweise sollte ein umfangreiches PDF in Kapitel aufgeteilt werden, anstatt es auf einmal in das Modell zu laden, um eine maximale Genauigkeit zu erreichen.
Meta reagiert auf Kritik
Meta hat inzwischen auf die unterschiedlichen Testergebnisse reagiert. Ahmad Al-Dahle, der bei Meta die Entwicklung generativer KI leitet, räumt ein, dass es Berichte über schwankende Qualität bei verschiedenen Diensten gibt. Dies führt er darauf zurück, dass die Modelle kurzfristig nach ihrer Fertigstellung veröffentlicht wurden und die öffentlichen Implementierungen noch Zeit bräuchten, um optimal eingestellt zu werden.
Al-Dahle weist zudem Vorwürfe zurück, Meta habe auf Testdatensätzen trainiert: "Das stimmt einfach nicht und wir würden so etwas nie tun." Meta arbeite weiter an Fehlerbehebungen und der Einbindung von Partnern. Das Unternehmen sei überzeugt, dass die Llama 4 Modelle einen bedeutenden Fortschritt darstellen und wolle mit der Community zusammenarbeiten, um ihr Potenzial zu erschließen.