Inhalt
summary Zusammenfassung

Meta startet mit den beiden kleinsten Llama-Modellen, das leistungsstärkste befindet sich noch in der Entwicklung. Die Modelle sind von Grund auf multimodal und nutzen erstmals die Mixture-of-Experts-Architektur.

Anzeige

Meta hat die ersten beiden Modelle seiner neuen Llama-4-Generation vorgestellt. Beide Modelle verarbeiten Text und Bilder in einer gemeinsamen Architektur und basieren erstmals auf einer Mixture-of-Experts-Struktur (MoE).

Die Modelle wurden mit einer Vielzahl von Bildern und Videos trainiert, um ein breites visuelles Verständnis zu ermöglichen. Während des Vortrainings wurden sie mit bis zu 48 Bildern konfrontiert, und in den Tests nach dem Training zeigten sie gute Analyseergebnisse mit bis zu acht Bildern als Eingabe.

Die Llama-4-Modelle in der Übersicht. Ein Reasoning-Modell dürfte folgen. | Bild: Meta AI

Llama 4 Scout

Das kleinste Modell ist Llama 4 Scout. Es verfügt über 17 Milliarden aktive Parameter (109 Milliarden insgesamt), die auf 16 Experten verteilt sind, und soll auf einer einzigen H100-GPU laufen. Laut Meta eignet es sich für Aufgaben wie Langtextverarbeitung, visuelle Frage-Antwort-Systeme, Codeanalyse und Multi-Image-Verständnis.

Anzeige
Anzeige
Vergleichstabelle: Llama 4 Scout vs. ältere Llama-Modelle und Konkurrenz, mit Fokus auf Bildverständnis-Benchmarks wie MMMU (69.4) und DocVQA (94.4).
Llama 4 Scout zeigt besondere Stärken bei visuellen Aufgaben mit Spitzenwerten bei DocVQA (94.4) und ChartQA (88.8). Im Vergleich zu Vorgängermodellen wie Llama 3.3 70B und Konkurrenten wie Gemini 2.0 Flash-Lite liefert Scout durchweg bessere Ergebnisse bei multimodalen Tests. | Bild: Meta AI

Meta hebt das große Kontextfenster von Scout mit 10 Millionen Token - etwa 5 Millionen Wörter aufwärts - hervor. Das klingt beeindruckend, aber Meta lässt die wichtigere Frage offen: Nicht, wie viele Daten hineinpassen, sondern wie gründlich und zuverlässig diese bei komplexen Anfragen abgedeckt werden, die über eine reine Wortsuche hinausgehen, die man auch mit Strg+F abdecken könnte. Alle Sprachmodelle haben dabei deutliche Schwächen, bei Text und bei Bildern.

Dass Meta für den Performance-Nachweis des Scout-Kontextfensters immer noch den längst veralteten und irreführenden "Needle in the Haystack"-Benchmark anführt, spricht nicht für einen Durchbruch. Hier gibt es mittlerweile bessere Benchmarks, die gezielt die Verknüpfung von Informationen im Kontextfenster testen. Außerdem wurde das Modell sowohl im Pre-Training als auch im Post-Training nur mit einer Kontextlänge von 256K trainiert. Das beworbene 10-Millionen-Token-Fenster basiert auf einer Längengeneralisierung.

Llama 4 Maverick

Das größere Modell Llama 4 Maverick verwendet ebenfalls 17 Milliarden aktive Parameter (400 Milliarden Parameter insgesamt), verteilt diese aber auf 128 Experten. Maverick kann laut Meta auf einem einzigen H100-Host betrieben werden. Die MoE-Architektur reduziert die Rechenlast, indem nur ein Teil der Parameter pro Eingabe aktiviert wird. Die Kontextlänge beträgt eine Million Token.

Laut Meta schlägt es OpenAIs GPT-4o und Googles Gemini 2.0 Flash in verschiedenen Benchmarks und erreicht ähnliche Ergebnisse wie DeepSeek v3 bei Reasoning und Coding - mit weniger als der Hälfte der aktiven Parameter. In der experimentellen Chatversion erreicht Maverick 1417 Punkte in der LMArena ELO Rangliste.

Vergleichstabelle: Llama 4 Maverick vs. Gemini Flash, DeepSeek und GPT-4o mit Benchmarks für Bildverständnis, Coding und Kosten pro Token.
Llama 4 Maverick zeigt eine gute Leistung bei multimodalen Aufgaben wie DocVQA (94.4) und ChartQA (90.0). Mit angenommenen Token-Kosten von nur $0.19-$0.49 pro Million bietet das Modell im Vergleich zur Konkurrenz ein gutes Preis-Leistungs-Verhältnis. Die tatsächlichen Tokenkosten hängen natürlich von der Infrastruktur ab, in der Llama 4 eingesetzt wird. | Bild: Meta AI

Scout und Maverick sind ab sofort als Open-Weight-Modelle über llama.com und Hugging Face erhältlich. Sie werden auch in Meta-Produkten wie WhatsApp, Messenger, Instagram Direct und Meta.ai eingesetzt. Meta plant weitere Entwicklungen für die Llama-4-Reihe und will diese auf der LlamaCon am 29. April vorstellen, für die man sich hier anmelden kann.

Empfehlung

Llama 4 "Behemoth" trainiert die kleineren Modelle

Beide Modelle wurden mit Hilfe von Llama 4 Behemoth entwickelt, einem bisher unveröffentlichten Modell mit 288 Milliarden aktiven Parametern, 16 Experten und insgesamt 2 Billionen Parametern.

Behemoth dient als "Lehrermodell" für Scout und Maverick und übertrifft laut Meta GPT-4.5, Claude Sonnet 3.7 und Gemini 2.0 Pro in mathematischen und wissenschaftlichen Benchmarks. Meta scheut hier allerdings den Vergleich mit Googles neuem Gemini 2.5 Pro, das als Reasoning-Hybrid bessere Test-Ergebnisse erzielt und vorn liegt. Ein Llama-Reasoning-Modell gibt es bisher nicht, es dürfte aber folgen.

Vergleichstabelle: Benchmark-Ergebnisse von KI-Modellen wie Llama 4 Behemoth, Claude Sonnet, Gemini Pro und GPT-4.5 in verschiedenen Tests.
Die Leistungsvergleichstabelle zeigt die Ergebnisse von Llama 4 Behemoth in verschiedenen Benchmark-Tests. Besonders bei MATH-500 (95.0) und LiveCodeBench (49.4) setzt sich das Modell von der Konkurrenz ab. Allerdings fehlt hier Googles 2.5 Pro, das bessere Ergebnisse erzielt. | Bild: Meta AI

Nach dem Haupttraining verfeinert Meta die Llama-4-Modelle in mehreren Schritten, um ihre Fähigkeiten weiter zu verbessern (Post-Training). Zunächst werden sie mit einer kleinen Auswahl von Beispieldaten leicht nachtrainiert (Supervised Fine-Tuning).

Anschließend durchlaufen sie eine Phase, in der sie aus Rückmeldungen lernen und für gute Antworten belohnt werden (Online Reinforcement Learning). Meta entwickelte hierfür ein vollständig asynchrones Online-RL-Trainingssystem, was zu einer etwa zehnfachen Verbesserung der Trainingseffizienz gegenüber früheren Generationen führte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Zum Schluss folgt eine gezielte Feinabstimmung, die darauf abzielt, die Qualität der Antworten weiter zu erhöhen (Direct Preference Optimization). Ein besonderer Fokus liegt dabei auf schwierigen Aufgabenstellungen: Leicht lösbare Beispiele wurden konsequent aussortiert – beim Modell Llama 4 Maverick mehr als zur Hälfte, beim besonders großen Behemoth-Modell sogar zu 95 Prozent. Auf diese Weise will Meta sicherstellen, dass die Modelle auch bei komplexen Fragen, etwa im Bereich Argumentation oder Bildverstehen, zuverlässig und präzise reagieren.

EU darft Llama-4 nicht nutzen

Die Llama-4-Modelle werden unter der bekannten Llama-Lizenz veröffentlicht - mit einer Neuerung für die EU: Die Nutzung der multimodalen Modelle ist für Unternehmen mit Sitz in der EU oder für Einzelpersonen mit Wohnsitz in der EU ausgeschlossen. Die Restriktion bezieht sich nicht auf Endverbraucher.

Screenshot: Auszug aus der Llama-Lizenzbestimmung, die besagt, dass Entwickler in der EU Llama 4 nicht verwenden dürfen.
Meta schließt die EU-KI-Szene von der Llama-Nutzung aus. | Bild: Meta AI

Es war bereits bekannt, dass die Llama 4 Modelle wegen "regulatorischer Unsicherheiten" vorerst nicht in der EU erscheinen werden. Es handelt sich um einen Machtkampf zwischen Meta und der EU um die Regeln des EU-AI-Acts, die Meta aufweichen will oder mehr Klarheit fordert - je nach Sichtweise.

Ansonsten müssen Entwickler sichtbare Hinweise wie „Built with Llama“ anbringen und dürfen nur Modellnamen verwenden, die mit "Llama" beginnen. Große Plattformanbieter mit mehr als 700 Millionen monatlich aktiven Nutzern benötigen eine Sondergenehmigung von Meta.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta hat zwei neue Sprachmodelle der Llama-4-Reihe veröffentlicht: Scout und Maverick. Beide sind multimodal und basieren erstmals auf einer Mixture-of-Experts-Architektur, bei der nur ein Teil der Parameter pro Anfrage aktiviert wird.
  • Llama 4 Scout nutzt 17 Milliarden aktive Parameter, verteilt auf 16 Experten, mit einem Kontextfenster von zehn Millionen Tokens. Llama 4 Maverick verwendet ebenfalls 17 Milliarden aktive Parameter, verteilt diese jedoch auf 128 Experten bei einer Kontextlänge von einer Million Tokens. Zur Entwicklung beider Modelle diente das Trainingsmodell Behemoth mit 288 Milliarden aktiven Parametern und insgesamt zwei Billionen Parametern.
  • Die Nutzung der Llama-4-Modelle ist für Unternehmen mit Sitz in der EU sowie für Einzelpersonen mit Wohnsitz in der EU ausgeschlossen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!