AMD verbessert Open-Source-Modell mit weniger Trainingsdaten

Der Chiphersteller AMD hat sein erstes Open-Source-Sprachmodell mit einer Milliarde Parametern veröffentlicht. Es baut auf einem vorherigen Modell auf, nutzt jedoch deutlich weniger Trainingsdaten.

OLMo basiert auf der gleichnamigen Open-Source-Architektur, unterscheidet sich aber in wichtigen Punkten vom Original. Wie AMD mitteilt, wurde das Modell mit weniger als der Hälfte der Trainings-Tokens des Original-OLMo trainiert. Dennoch erreiche es eine vergleichbare Leistung.

Flussdiagramm: Dreistufiger Trainingsprozess für AMD OLMo 1B von Pre-training über SFT bis DPO Alignment mit spezifischen Datensätzen. — Der dreistufige Entwicklungsprozess des AMD OLMo 1B Modells zeigt die Evolution vom Basis-Sprachmodell über die Chat-Optimierung bis zur finalen Ausrichtung auf menschliche Präferenzen. Jede Phase nutzt spezifische Datensätze zur gezielten Verbesserung der KI-Fähigkeiten. | Bild: AMD

AMDs OLMo-Version durchlief ein dreistufiges Training. In der ersten Phase wurde das Basismodell mit 1,3 Billionen Tokens auf 16 Serverknoten mit jeweils vier AMD-Instinct-MI250-GPUs trainiert.

In der zweiten Phase erfolgte ein zweistufiges überwachtes Finetuning mit verschiedenen Datensätzen, um die Fähigkeiten in Bereichen wie Wissenschaft, Programmierung und Mathematik zu verbessern. Die dritte Phase bestand aus einer Anpassung an menschliche Präferenzen auf Basis des UltraFeedback-Datensatzes.

Gute Ergebnisse im Vergleich zur Konkurrenz

Nach Angaben von AMD übertrifft das finale OLMo-Modell andere Open-Source-Chatmodelle in mehreren Benchmarks um durchschnittlich 2,6 Prozent.

Säulendiagramm: Vergleich von 6 LLM-Modellen über 12 Benchmarks, AMD OLMo 1B zeigt Leistungssteigerungen bei mehreren Tests. — Die Leistungsvergleiche verschiedener LLM-Modelle zeigen bemerkenswerte Verbesserungen durch AMD OLMo 1B, mit Steigerungen von bis zu 6,36 Prozent bei bestimmten Benchmarks. | Bild: AMD

Besonders deutlich zeigten sich die Verbesserungen durch das zweiphasige Training: Die Genauigkeit bei MMLU-Tests stieg um 5,09 Prozent, bei GSM8k-Tests sogar um 15,32 Prozent.

Eine Besonderheit von OLMo ist laut AMD die Kompatibilität mit verschiedenen Hardwareplattformen. Neben dem Einsatz in Rechenzentren kann das Modell auch auf Notebooks mit AMDs Ryzen-AI-Prozessoren und integrierten Neural Processing Units (NPUs) ausgeführt werden.

Das Modell, Trainingsdaten und Code sind auf Hugging Face verfügbar.

AMD investiert massiv in KI-Entwicklung

Die Veröffentlichung von OLMo ist Teil einer breiteren KI-Strategie von AMD. Wie das Unternehmen im Juli mitteilte, hat es in den vergangenen zwölf Monaten über 125 Millionen US-Dollar in ein Dutzend KI-Unternehmen investiert. Zuletzt übernahm AMD das finnische KI-Unternehmen Silo AI für 665 Millionen US-Dollar und das Open-Source-KI-Startup Nod.ai.

Empfehlung

KI-Forschung

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Parallel dazu treibt AMD die Entwicklung spezialisierter KI-Hardware voran: Mit dem für 2025 angekündigten KI-Beschleuniger Instinct MI355X will das Unternehmen Nvidia direkte Konkurrenz machen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

AMD verbessert Open-Source-Modell mit weniger Trainingsdaten

Gute Ergebnisse im Vergleich zur Konkurrenz

AMD investiert massiv in KI-Entwicklung

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Nvidia, AMD und AWS bauen mit Saudi-Arabien Milliarden-Infrastruktur für KI

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

AMD verbessert Open-Source-Modell mit weniger Trainingsdaten

Gute Ergebnisse im Vergleich zur Konkurrenz

AMD investiert massiv in KI-Entwicklung

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Nvidia, AMD und AWS bauen mit Saudi-Arabien Milliarden-Infrastruktur für KI