Inhalt
summary Zusammenfassung

Meta AI hat heute Llama 3, die nächste Generation seiner Open-Source-Sprachmodelle, veröffentlicht. Laut Meta sollen die neuen Modelle den besten proprietären Modellen ebenbürtig sein und bald auch Multimodalität und mehr Sprachen unterstützen.

Meta hat heute die ersten beiden Modelle der nächsten Generation von Llama vorgestellt. Die Reihe mit dem Namen Meta Llama 3 umfasst zunächst vortrainierte und instruktions-trainierte Sprachmodelle mit 8 bzw. 70 Milliarden Parametern.

Nach Angaben des Unternehmens handelt es sich dabei um die besten Open-Source-Modelle ihrer Klasse. Die Modelle seien ein großer Fortschritt gegenüber Llama 2 und zeigten deutlich verbesserte Fähigkeiten wie logisches Schlussfolgern, Codegenerierung und das Befolgen von Anweisungen.

In den von Meta vorgestellten Benchmarks übertrifft Llama 3 70B in mehreren Benchmarks wie MMLU proprietäre Modelle wie Googles Gemini 1.5 Pro und Anthropics Claude 3 Sonnet, bleibt aber hinter führenden Modellen wie Claude 3 Opus und OpenAIs GPT-4 Turbo zurück.

Anzeige
Anzeige
Bild: Meta

Llama 3: Training mit 15 Billionen Token

Der Leistungssprung anderem auf einen massiven Anstieg der Trainingsdaten zurückzuführen: Llama 3 wurde auf über 15 Billionen Token vortrainiert, die alle aus öffentlich zugänglichen Quellen stammen. Der Datensatz ist siebenmal größer als bei Llama 2 und enthält viermal mehr Code. Mehr als 5 Prozent der Daten sind nicht auf Englisch, sondern decken über 30 Sprachen ab - auch wenn Meta in diesen Sprachen noch nicht die gleiche Leistung wie auf Englisch erwartet.

Bei der Architektur setzt Meta auf die Decoder-Only-Transformer, der aber unter anderem einen effizienteren Tokenizer mit einem Vokabular von 128.000 Token verwendet. Allerdings kommen die ersten beiden Modelle nur mit einem Kontextfenster von 8.000 Token. Der Knowledge Cutoff für Llama 3 8B ist März 2023, für Llama 70B Dezember 2023.

Um Llama 3 sicher und verantwortungsvoll einsetzen zu können, stellt Meta verschiedene neue Tools bereit, darunter aktualisierte Versionen von Llama Guard und Cybersec Eval sowie das neue Code Shield, das als Leitplanke für die Ausgabe unsicheren Codes durch Sprachmodelle dient.

Größere und bessere Llama-3-Modelle mit bis zu 400 Milliarden Parametern sollen kommen

Mit den heute veröffentlichten Modellen ist Llama 3 nicht komplett: Meta will die Modelle weiterentwickeln und in den kommenden Monaten zusätzliche Modelle mit neuen Fähigkeiten wie Mehrsprachigkeit, einem längeren Kontextfenster und stärkeren Gesamtfähigkeiten veröffentlichen. Die größten Modelle von Llama 3 haben laut Meta über 400 Milliarden Parameter und befinden sich noch in der Trainingsphase. Meta will auch ein detailliertes Forschungspapier veröffentlichen, sobald das Training von Llama 3 abgeschlossen ist. Das größte Modell könnte das Niveau von GPT-4 erreichen, wie einige vorläufige Benchmarks zeigen, die Meta anhand eines aktuellen Schnappschusses des 400B-Modells erstellt hat.

Bild: Meta

Die Llama-3-Modelle werden bald auf Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM und Snowflake sowie mit Unterstützung von Hardwareplattformen von AMD, AWS, Dell, Intel, NVIDIA und Qualcomm verfügbar sein. Sie sind zudem auf Metas Llama 3 Seite zum Download und Amazon SageMaker verfügbar.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta AI hat Llama 3 veröffentlicht, die nächste Generation seiner Open-Source-Sprachmodelle mit vortrainierten und instruktions-trainierte Modellen mit 8 bzw. 70 Milliarden Parametern, die in Benchmarks einige proprietäre Modelle wie Googles Gemini 1.5 Pro übertreffen sollen.
  • Llama 3 wurde auf über 15 Billionen Token vortrainiert, die aus öffentlich zugänglichen Quellen stammen. Der Datensatz ist siebenmal größer als bei Llama 2, enthält viermal mehr Code und deckt über 30 Sprachen ab.
  • Weitere Llama-3-Modelle mit bis zu 400 Milliarden Parametern und neuen Fähigkeiten wie Mehrsprachigkeit sind in Entwicklung. Die Modelle werden bald auf verschiedenen Cloud-Plattformen und mit Unterstützung von Hardwareherstellern verfügbar sein.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!