Inhalt
summary Zusammenfassung

Der Chiphersteller AMD hat sein erstes Open-Source-Sprachmodell mit einer Milliarde Parametern veröffentlicht. Es baut auf einem vorherigen Modell auf, nutzt jedoch deutlich weniger Trainingsdaten.

Anzeige

OLMo basiert auf der gleichnamigen Open-Source-Architektur, unterscheidet sich aber in wichtigen Punkten vom Original. Wie AMD mitteilt, wurde das Modell mit weniger als der Hälfte der Trainings-Tokens des Original-OLMo trainiert. Dennoch erreiche es eine vergleichbare Leistung.

Flussdiagramm: Dreistufiger Trainingsprozess für AMD OLMo 1B von Pre-training über SFT bis DPO Alignment mit spezifischen Datensätzen.
Der dreistufige Entwicklungsprozess des AMD OLMo 1B Modells zeigt die Evolution vom Basis-Sprachmodell über die Chat-Optimierung bis zur finalen Ausrichtung auf menschliche Präferenzen. Jede Phase nutzt spezifische Datensätze zur gezielten Verbesserung der KI-Fähigkeiten. | Bild: AMD

AMDs OLMo-Version durchlief ein dreistufiges Training. In der ersten Phase wurde das Basismodell mit 1,3 Billionen Tokens auf 16 Serverknoten mit jeweils vier AMD-Instinct-MI250-GPUs trainiert.

In der zweiten Phase erfolgte ein zweistufiges überwachtes Finetuning mit verschiedenen Datensätzen, um die Fähigkeiten in Bereichen wie Wissenschaft, Programmierung und Mathematik zu verbessern. Die dritte Phase bestand aus einer Anpassung an menschliche Präferenzen auf Basis des UltraFeedback-Datensatzes.

Anzeige
Anzeige

Gute Ergebnisse im Vergleich zur Konkurrenz

Nach Angaben von AMD übertrifft das finale OLMo-Modell andere Open-Source-Chatmodelle in mehreren Benchmarks um durchschnittlich 2,6 Prozent.

Säulendiagramm: Vergleich von 6 LLM-Modellen über 12 Benchmarks, AMD OLMo 1B zeigt Leistungssteigerungen bei mehreren Tests.
Die Leistungsvergleiche verschiedener LLM-Modelle zeigen bemerkenswerte Verbesserungen durch AMD OLMo 1B, mit Steigerungen von bis zu 6,36 Prozent bei bestimmten Benchmarks. | Bild: AMD

Besonders deutlich zeigten sich die Verbesserungen durch das zweiphasige Training: Die Genauigkeit bei MMLU-Tests stieg um 5,09 Prozent, bei GSM8k-Tests sogar um 15,32 Prozent.

Eine Besonderheit von OLMo ist laut AMD die Kompatibilität mit verschiedenen Hardwareplattformen. Neben dem Einsatz in Rechenzentren kann das Modell auch auf Notebooks mit AMDs Ryzen-AI-Prozessoren und integrierten Neural Processing Units (NPUs) ausgeführt werden.

Das Modell, Trainingsdaten und Code sind auf Hugging Face verfügbar.

AMD investiert massiv in KI-Entwicklung

Die Veröffentlichung von OLMo ist Teil einer breiteren KI-Strategie von AMD. Wie das Unternehmen im Juli mitteilte, hat es in den vergangenen zwölf Monaten über 125 Millionen US-Dollar in ein Dutzend KI-Unternehmen investiert. Zuletzt übernahm AMD das finnische KI-Unternehmen Silo AI für 665 Millionen US-Dollar und das Open-Source-KI-Startup Nod.ai.

Empfehlung

Parallel dazu treibt AMD die Entwicklung spezialisierter KI-Hardware voran: Mit dem für 2025 angekündigten KI-Beschleuniger Instinct MI355X will das Unternehmen Nvidia direkte Konkurrenz machen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • AMD hat sein erstes Open-Source-Sprachmodell mit einer Milliarde Parametern veröffentlicht. Es baut auf der OLMo-Architektur auf, wurde aber mit weniger als der Hälfte der Trainings-Tokens trainiert und erreicht dennoch eine vergleichbare Leistung.
  • Das dreistufige Training umfasste ein Basismodell, ein zweistufiges überwachtes Finetuning für spezifische Fähigkeiten und eine Anpassung an menschliche Präferenzen. In Benchmarks übertraf AMDs OLMo andere Open-Source-Chatmodelle um durchschnittlich 2,6 Prozent.
  • Die Veröffentlichung von OLMo ist Teil von AMDs breiterer KI-Strategie, die Investitionen in KI-Unternehmen, Übernahmen und die Entwicklung spezialisierter KI-Hardware wie den für 2025 geplanten Instinct MI355X Beschleuniger umfasst, mit dem AMD Nvidia direkt Konkurrenz machen will.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!