Llama 3: Meta veröffentlicht neue leistungsfähige Open-Source-Sprachmodelle

Ideogram prompted by THE DECODER

Meta AI hat heute Llama 3, die nächste Generation seiner Open-Source-Sprachmodelle, veröffentlicht. Laut Meta sollen die neuen Modelle den besten proprietären Modellen ebenbürtig sein und bald auch Multimodalität und mehr Sprachen unterstützen.

Meta hat heute die ersten beiden Modelle der nächsten Generation von Llama vorgestellt. Die Reihe mit dem Namen Meta Llama 3 umfasst zunächst vortrainierte und instruktions-trainierte Sprachmodelle mit 8 bzw. 70 Milliarden Parametern.

Nach Angaben des Unternehmens handelt es sich dabei um die besten Open-Source-Modelle ihrer Klasse. Die Modelle seien ein großer Fortschritt gegenüber Llama 2 und zeigten deutlich verbesserte Fähigkeiten wie logisches Schlussfolgern, Codegenerierung und das Befolgen von Anweisungen.

In den von Meta vorgestellten Benchmarks übertrifft Llama 3 70B in mehreren Benchmarks wie MMLU proprietäre Modelle wie Googles Gemini 1.5 Pro und Anthropics Claude 3 Sonnet, bleibt aber hinter führenden Modellen wie Claude 3 Opus und OpenAIs GPT-4 Turbo zurück.

Llama 3: Training mit 15 Billionen Token

Der Leistungssprung anderem auf einen massiven Anstieg der Trainingsdaten zurückzuführen: Llama 3 wurde auf über 15 Billionen Token vortrainiert, die alle aus öffentlich zugänglichen Quellen stammen. Der Datensatz ist siebenmal größer als bei Llama 2 und enthält viermal mehr Code. Mehr als 5 Prozent der Daten sind nicht auf Englisch, sondern decken über 30 Sprachen ab - auch wenn Meta in diesen Sprachen noch nicht die gleiche Leistung wie auf Englisch erwartet.

Bei der Architektur setzt Meta auf die Decoder-Only-Transformer, der aber unter anderem einen effizienteren Tokenizer mit einem Vokabular von 128.000 Token verwendet. Allerdings kommen die ersten beiden Modelle nur mit einem Kontextfenster von 8.000 Token. Der Knowledge Cutoff für Llama 3 8B ist März 2023, für Llama 70B Dezember 2023.

Um Llama 3 sicher und verantwortungsvoll einsetzen zu können, stellt Meta verschiedene neue Tools bereit, darunter aktualisierte Versionen von Llama Guard und Cybersec Eval sowie das neue Code Shield, das als Leitplanke für die Ausgabe unsicheren Codes durch Sprachmodelle dient.

Größere und bessere Llama-3-Modelle mit bis zu 400 Milliarden Parametern sollen kommen

Mit den heute veröffentlichten Modellen ist Llama 3 nicht komplett: Meta will die Modelle weiterentwickeln und in den kommenden Monaten zusätzliche Modelle mit neuen Fähigkeiten wie Mehrsprachigkeit, einem längeren Kontextfenster und stärkeren Gesamtfähigkeiten veröffentlichen. Die größten Modelle von Llama 3 haben laut Meta über 400 Milliarden Parameter und befinden sich noch in der Trainingsphase. Meta will auch ein detailliertes Forschungspapier veröffentlichen, sobald das Training von Llama 3 abgeschlossen ist. Das größte Modell könnte das Niveau von GPT-4 erreichen, wie einige vorläufige Benchmarks zeigen, die Meta anhand eines aktuellen Schnappschusses des 400B-Modells erstellt hat.

Die Llama-3-Modelle werden bald auf Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM und Snowflake sowie mit Unterstützung von Hardwareplattformen von AMD, AWS, Dell, Intel, NVIDIA und Qualcomm verfügbar sein. Sie sind zudem auf Metas Llama 3 Seite zum Download und Amazon SageMaker verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI in der Praxis

Update

Llama 3: Meta veröffentlicht neue leistungsfähige Open-Source-Sprachmodelle

Llama 3: Training mit 15 Billionen Token

Größere und bessere Llama-3-Modelle mit bis zu 400 Milliarden Parametern sollen kommen

OpenAI sammelt 6,6 Milliarden US-Dollar ein und blockiert Investitionen in die Konkurrenz

Meta Llama 4 kommt in mehreren Versionen mit Fokus auf Reasoning und Agents

Meta veröffentlicht Llama 3.3, das mit weniger Rechenaufwand mehr leisten soll

Hermes 3: Neutrale KI-Modelle kennen kein "latentes Gedankenverbrechen"

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Llama 3: Meta veröffentlicht neue leistungsfähige Open-Source-Sprachmodelle

Llama 3: Training mit 15 Billionen Token

Größere und bessere Llama-3-Modelle mit bis zu 400 Milliarden Parametern sollen kommen

Artikel teilen

Bankverbindung