Skip to content

AMD verbessert Open-Source-Modell mit weniger Trainingsdaten

Image description
AMD

Kurz & Knapp

  • AMD hat sein erstes Open-Source-Sprachmodell mit einer Milliarde Parametern veröffentlicht. Es baut auf der OLMo-Architektur auf, wurde aber mit weniger als der Hälfte der Trainings-Tokens trainiert und erreicht dennoch eine vergleichbare Leistung.
  • Das dreistufige Training umfasste ein Basismodell, ein zweistufiges überwachtes Finetuning für spezifische Fähigkeiten und eine Anpassung an menschliche Präferenzen. In Benchmarks übertraf AMDs OLMo andere Open-Source-Chatmodelle um durchschnittlich 2,6 Prozent.
  • Die Veröffentlichung von OLMo ist Teil von AMDs breiterer KI-Strategie, die Investitionen in KI-Unternehmen, Übernahmen und die Entwicklung spezialisierter KI-Hardware wie den für 2025 geplanten Instinct MI355X Beschleuniger umfasst, mit dem AMD Nvidia direkt Konkurrenz machen will.

Der Chiphersteller AMD hat sein erstes Open-Source-Sprachmodell mit einer Milliarde Parametern veröffentlicht. Es baut auf einem vorherigen Modell auf, nutzt jedoch deutlich weniger Trainingsdaten.

OLMo basiert auf der gleichnamigen Open-Source-Architektur, unterscheidet sich aber in wichtigen Punkten vom Original. Wie AMD mitteilt, wurde das Modell mit weniger als der Hälfte der Trainings-Tokens des Original-OLMo trainiert. Dennoch erreiche es eine vergleichbare Leistung.

Flussdiagramm: Dreistufiger Trainingsprozess für AMD OLMo 1B von Pre-training über SFT bis DPO Alignment mit spezifischen Datensätzen.
Der dreistufige Entwicklungsprozess des AMD OLMo 1B Modells zeigt die Evolution vom Basis-Sprachmodell über die Chat-Optimierung bis zur finalen Ausrichtung auf menschliche Präferenzen. Jede Phase nutzt spezifische Datensätze zur gezielten Verbesserung der KI-Fähigkeiten. | Bild: AMD

AMDs OLMo-Version durchlief ein dreistufiges Training. In der ersten Phase wurde das Basismodell mit 1,3 Billionen Tokens auf 16 Serverknoten mit jeweils vier AMD-Instinct-MI250-GPUs trainiert.

In der zweiten Phase erfolgte ein zweistufiges überwachtes Finetuning mit verschiedenen Datensätzen, um die Fähigkeiten in Bereichen wie Wissenschaft, Programmierung und Mathematik zu verbessern. Die dritte Phase bestand aus einer Anpassung an menschliche Präferenzen auf Basis des UltraFeedback-Datensatzes.

Gute Ergebnisse im Vergleich zur Konkurrenz

Nach Angaben von AMD übertrifft das finale OLMo-Modell andere Open-Source-Chatmodelle in mehreren Benchmarks um durchschnittlich 2,6 Prozent.

Säulendiagramm: Vergleich von 6 LLM-Modellen über 12 Benchmarks, AMD OLMo 1B zeigt Leistungssteigerungen bei mehreren Tests.
Die Leistungsvergleiche verschiedener LLM-Modelle zeigen bemerkenswerte Verbesserungen durch AMD OLMo 1B, mit Steigerungen von bis zu 6,36 Prozent bei bestimmten Benchmarks. | Bild: AMD

Besonders deutlich zeigten sich die Verbesserungen durch das zweiphasige Training: Die Genauigkeit bei MMLU-Tests stieg um 5,09 Prozent, bei GSM8k-Tests sogar um 15,32 Prozent.

Eine Besonderheit von OLMo ist laut AMD die Kompatibilität mit verschiedenen Hardwareplattformen. Neben dem Einsatz in Rechenzentren kann das Modell auch auf Notebooks mit AMDs Ryzen-AI-Prozessoren und integrierten Neural Processing Units (NPUs) ausgeführt werden.

Das Modell, Trainingsdaten und Code sind auf Hugging Face verfügbar.

AMD investiert massiv in KI-Entwicklung

Die Veröffentlichung von OLMo ist Teil einer breiteren KI-Strategie von AMD. Wie das Unternehmen im Juli mitteilte, hat es in den vergangenen zwölf Monaten über 125 Millionen US-Dollar in ein Dutzend KI-Unternehmen investiert. Zuletzt übernahm AMD das finnische KI-Unternehmen Silo AI für 665 Millionen US-Dollar und das Open-Source-KI-Startup Nod.ai.

Parallel dazu treibt AMD die Entwicklung spezialisierter KI-Hardware voran: Mit dem für 2025 angekündigten KI-Beschleuniger Instinct MI355X will das Unternehmen Nvidia direkte Konkurrenz machen.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren