Komplett offenes Sprachmodell OLMo 3 soll zu Reasoning-Modellen aufschließen
Kurz & Knapp
- Das Allen Institute for AI veröffentlicht mit OLMo 3 eine neue Generation komplett transparenter KI-Modelle, darunter das erste offene 32B-Thinking-Modell, das Reasoning-Prozesse sichtbar macht.
- OLMo 3 bietet ein 65.000 Token Kontextfenster und ermöglicht vollständige Einsicht in Trainingsschritte, Checkpoints und Datensätze.
- Die Modelle basieren auf dem Dolma-3-Datensatz, sind offen lizenziert und ab sofort auf Hugging Face sowie im Ai2 Playground verfügbar.
Das Allen Institute for AI (Ai2) präsentiert mit OLMo 3 eine neue Generation vollständig offener KI-Modelle. Das erste offene 32B-Thinking-Modell soll Reasoning-Prozesse nachvollziehbar machen und dabei 2,5-mal effizienter als vergleichbare Modelle arbeiten.
Die dritte Generation der OLMo-Familie umfasst drei Hauptvarianten: OLMo 3-Base (7B & 32B), das neue OLMo 3-Think (7B & 32B) und OLMo 3-Instruct (7B). Alle Modelle unterstützen ein Kontextfenster von 65 000 Tokens, das 16-mal größer ist als beim Vorgänger OLMo 2.
Laut Ai2 gibt das Institut Forschern, Entwicklern und Buildern erstmals Zugang zur kompletten Pipeline von Daten bis Deployment. Nutzer können jeden Trainingsschritt, Checkpoint und Datensatz einsehen und sogar einzelne Reasoning-Schritte zu den Trainingsdaten zurückverfolgen, die sie produzierten.
Höhere Effizienz bei vergleichbarer Performance
Das OLMo 3-Base 7B-Modell soll laut Ai2 mit 2,5-mal höherer Compute-Effizienz trainiert worden sein als Metas Llama-3.1-8B, gemessen in GPU-Stunden pro Token. Trotz dieser Effizienz erreichen die Modelle nach Angaben des Instituts Performance-Level, die mit deutlich größeren Modellen konkurrieren können.
Die OLMo 3-Modelle sollen vollständig offene Konkurrenten wie Apertus-70B und SmolLM 3 in Reasoning-, Comprehension- und Long-Context-Benchmarks übertreffen. CEO Ali Farhadi erklärte laut Ankündigung, dass "hohe Performance nicht mit hohen Kosten einhergehen muss" und das System zeige, wie "verantwortungsvolle, nachhaltige KI ohne Kompromisse skalieren kann".
Testen kann man die neuen Modelle hier. Die folgende Tabelle zeigt die Benchmark-Ergebnisse des Reasoning-Modells.
| Skill | Benchmark | Olmo 3-Think (32B) | Qwen 3 32B | Qwen 3 VL 32B Thinking | Gemma 3 27B Instruct | DeepSeek R1 Distill 32B |
|---|---|---|---|---|---|---|
| Math | MATH | 96.1 ▲ | 95.4 | 96.7 | 87.4 | 92.6 |
| AIME 2024 | 76.8 | 80.8 | 86.3 | 28.9 | 70.3 | |
| AIME 2025 | 72.5 | 70.9 | 78.8 | 22.9 | 56.3 | |
| OMEGA | 50.8 ▲ | 47.7 | 50.8 | 24.0 | 38.9 | |
| Reasoning | BigBenchHard | 89.8 ▲ | 90.6 | 91.1 | 82.4 | 89.7 |
| ZebraLogic | 76.0 | 88.3 | 96.1 | 24.8 | 69.4 | |
| AGI Eval English | 88.2 | 90.0 | 92.2 | 76.9 | 88.1 | |
| Coding | HumanEvalPlus | 91.4 ▲ | 91.2 | 90.6 | 79.2 | 92.3 |
| MBPP+ | 68.0 | 70.6 | 66.2 | 65.7 | 70.1 | |
| LiveCodeBench v3 | 83.5 | 90.2 | 84.8 | 39.0 | 79.5 | |
| IF | IFEval | 89.0 ★ | 86.5 | 85.5 | 85.4 | 78.7 |
| IFBench | 47.6 | 37.3 | 55.1 | 31.3 | 23.8 | |
| Knowledge & QA | MMLU | 85.4 | 88.8 | 90.1 | 74.6 | 88.0 |
| PopQA | 31.9 ▲ | 30.7 | 32.2 | 30.2 | 26.7 | |
| GPQA | 58.1 | 67.3 | 67.4 | 45.0 | 61.8 | |
| Chat | AlpacaEval 2 LC | 74.2 | 75.6 | 80.9 | 65.5 | 26.2 |
| Safety | Safety | 68.8 | 69.0 | 82.7 | 68.6 | 63.6 |
★ bedeutet, dass Olmo in dieser Kategorie unter den verglichenen Modellen gewonnen hat. ▲ bedeutet, dass Olmo weniger als 2,0 Punkte vom Bestwert entfernt ist. Weitere Vergleiche findest du in unserem Bericht.
Erstes vollständig offenes Thinking-Modell
Mit OLMo 3-Think präsentiert Ai2 das erste vollständig offene Modell, das explizite Reasoning-Ketten generiert. Diese sogenannten Thinking- oder Reasoning-Modelle machen ihre Denkprozesse durch schrittweise Begründungen sichtbar, ein Ansatz, der lange Zeit hauptsächlich bei geschlossenen Systemen wie OpenAIs o1-Serie zu finden war.
Das Institut verspricht vollständige Transparenz des "Model Flow", der kompletten Pipeline von Daten bis Deployment. Laut Ankündigung können Nutzer jeden Trainingsschritt, Checkpoint und Datensatz einsehen und sogar einzelne Reasoning-Schritte zu den Trainingsdaten zurückverfolgen.
Diese radikale Offenheit unterscheidet OLMo 3 von vielen anderen sogenannten "Open-Source-Modellen", die in der Regel nur die Modellgewichte veröffentlichen, aber Trainingsdaten und -prozesse unter Verschluss halten. Solche Systeme werden präziser als "Open-Weights-Modelle" bezeichnet, da sie nur begrenzte Einblicke in ihre Entwicklung gewähren. Die besten Open-Weight-Thinking-Modelle stammen meist aus China, etwa das kürzlich veröffentlichte Kimi K2 Thinking von Moonshot AI.
Vollständige Transparenz durch Dolma 3 und offene Tools
Als Trainingsgrundlage dient der neue Dolma-3-Datensatz mit 6 Billionen Tokens, der Web-Inhalte, wissenschaftliche Literatur und Code umfasst. Zusätzlich stellt Ai2 die Dolci Suite für Reasoning Fine-Tuning und OLMES für reproduzierbare Evaluationen zur Verfügung.
Alle Modelle werden unter der permissiven Apache-2.0-Lizenz veröffentlicht und sind sofort auf Hugging Face und im Ai2 Playground verfügbar. Teams können die Modelle für neue Domänen fine-tunen, alternative Trainingsziele experimentieren oder veröffentlichte Checkpoints für eigene Anwendungen erweitern.
Im März hatte Ai2 bereits mit OLMo 2 32B einen wichtigen Meilenstein erreicht: Das damalige Modell war das erste vollständig offene System, das die Performance kommerzieller Modelle wie GPT-4o mini erreichte und dabei nur ein Drittel der Rechenleistung vergleichbarer Modelle benötigte.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren