Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Meta stellt die LLaMA-Sprachmodelle vor, die mit relativ wenigen Parametern wesentlich größere Sprachmodelle wie GPT-3 übertreffen können.

Metas KI-Forschungsabteilung veröffentlicht vier Foundation-Modelle zwischen 7 und 65 Milliarden Parametern. Bereits das 13-Milliarden-Modell "LLaMA" (Large Language Model Meta AI) soll bei "den meisten" Sprachaufgaben das Open-Source-Modell OPT von Meta sowie GPT-3 mit 175 Milliarden Parametern übertreffen.

Mehr Daten für bessere Ergebnisse

Das größte LLaMA-Modell mit 65 Milliarden Parametern soll sogar mit Googles riesigem 540-Milliarden-Modell Palm mithalten können und auf Augenhöhe mit Deepminds Chinchilla agieren.

Eine Tabelle.
Benchmarking-Ergebnisse für Aufgaben zum logischen Denken in natürlicher Sprache. | Bild: Meta

Der Trainingsaufwand und damit der CO₂-Verbrauch des LLaMA-Modells soll auf dem Niveau von 175-Milliarden-Modellen wie OPT und Bloom liegen. Der spätere Betrieb ist jedoch günstiger (siehe unten).

Anzeige
Anzeige
Eine Tabelle.
CO₂-Verbrauch der kleineren, mit mehr Daten trainierten Modelle im Vergleich zu größeren Sprachmodellen. | Bild: Meta

Der Vergleich mit Chinchilla ist insofern interessant, als Deepmind damals wie Meta heute bei LLaMA einen neuen Trainingsansatz gewählt hat, der auf einer größeren Anzahl von Trainingsdaten (Tokens) basiert als üblich. LLaMA ist sozusagen Metas Chinchilla, die Forschenden nennen das Modell explizit als Inspiration.

Die Tatsache, dass sich das Training mit mehr Daten in der Leistung widerspiegelt, zeigt, dass kleinere Modelle mit mehr Daten eine höhere Leistung erbringen können. Das Training ist zwar aufwendiger und teurer, aber der spätere Betrieb ist günstiger.

Das Ziel der Skalierungsgesetze von Hoffmann et al. (2022) ist es, die beste Skalierung des Datensatzes und der Modellgrößen für ein gegebenes Trainingsdatenbudget zu bestimmen. Dieses Ziel berücksichtigt jedoch nicht das Inferenzbudget, das bei der Skalierung eines Sprachmodells kritisch wird. Obwohl es billiger sein kann, ein großes Modell zu trainieren, um ein bestimmtes Leistungsniveau zu erreichen, wird ein kleineres Modell, das länger trainiert wird, leistungsfähiger sein.

Aus dem Paper

Das 13-Milliarden-Modell von LLaMA, das auf dem Niveau von GPT-3 operiert, läuft nach Angaben des Meta-Forschungsteams auf einer einzigen Nvidia Tesla V100-Grafikkarte. Es könnte dazu beitragen, den Zugang zu und die Forschung an großen Sprachmodellen zu demokratisieren.

Zudem zeigen die LLaMA-Sprachmodelle, dass größere Modelle noch erhebliche Leistungsreserven haben könnten, wenn ein Unternehmen Geld in die Hand nimmt und große Modelle mit großen Datenmengen kombiniert. Das Forschungsteam von Meta will dies in Zukunft tun, ebenso wie das Feintuning der Modelle mit Instruktionen.

Empfehlung

Wir planen für die Zukunft die Veröffentlichung größerer Modelle, die mit größeren Pretraining-Korpora trainiert wurden, da wir bei der Skalierung eine konstante Leistungsverbesserung festgestellt haben.

Aus dem Paper

Öffentliche Daten fürs KI-Training

LLaMA unterscheidet sich nach Angaben des Meta-Forschungsteams durch die Trainingsdaten von Deepminds Chinchilla und anderen Konzern-Sprachmodellen. LLaMA verwendet demnach ausschließlich öffentlich verfügbare Daten. Andere Modelle nutzten undokumentierte oder nicht öffentlich verfügbare Datensätze für das Training, so die Forscherinnen und Forscher.

Ein Großteil (67%) der LLaMA-Daten stammt aus einer bereinigten Version des weit verbreiteten "English Common Crawl"-Datensatzes. Weitere Datenquellen sind unter anderem Public GitHub und Wikipedia. Die LLaMA-Modelle seien daher "Open Source kompatibel", schreibt das Team.

Dies ist zumindest insofern fraglich, als die gängigen Open-Source-Lizenzen die Nutzung für das KI-Training bislang nicht vorsehen. Typischerweise geben die Modelle z.B. keine Quellen im Output an. Eine wirksame Einwilligung in die Nutzung der Daten für das KI-Training lässt sich allein aus der öffentlichen Verfügbarkeit der Daten im Internet wohl nicht ableiten, auch wenn die großen Konzerne dies derzeit so handhaben. Hier können nur Gerichte Klarheit schaffen.

Meta gibt die Sprachmodelle unter der nicht kommerziellen Lizenz GPL v3 an ausgewählte Partner aus Wissenschaft, Behörden und Industrie weiter. Interessenten können sich hier bewerben. Zugriff auf die Modellkarte und eine Anleitung zur Nutzung gibt es auf Github.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!