Inhalt
summary Zusammenfassung

IBM startet die vierte Generation seiner Granite-Sprachmodelle. Granite 4.0 setzt auf eine hybride Mamba/Transformer-Architektur, die den Speicherbedarf in der Inferenz stark reduzieren soll, ohne die Leistung zu beeinträchtigen.

Anzeige

IBM positioniert Granite 4.0 als Bausteine für agentische Workflows und als eigenständige Modelle für typische Unternehmensaufgaben wie Kundenservice oder RAG-Systeme, mit Fokus auf niedrige Latenz und geringere Betriebskosten, laut IBM. Die Thinking-Varianten sollen im Herbst folgen.

Vertikales Säulendiagramm der MTRAG‑Mean‑Accuracy, das Leistung bei Retrieval‑gestützten Multi‑Turn‑Aufgaben darstellt; zwei hervorgehobene Säulen zeigen Granite‑4.0‑H‑Small (73) und Granite‑4.0‑Micro (72) vor GPT‑OSS‑20B (68) und anderen Modellen.
MTRAG (Retrieval‑Augmented‑Generation) bewertet Genauigkeit und Zuverlässigkeit bei retrieval‑gestützten Dialogen (Multi‑Turn, nicht‑beantwortbare Fragen, domänenübergreifende Kontexte); Granite‑4.0‑H‑Small (73) und Granite‑4.0‑Micro (72) führen die Messreihe an. | Bild: IBM

Die Modelle erscheinen als Open Source unter Apache 2.0, sind kryptografisch signiert und wurden als erste offene Sprachmodellfamilie nach ISO/IEC 42001:2023 akkreditiert. Die Trainingsdaten seien kuratiert, ethisch beschafft und unternehmensgeeignet, so IBM.

Alle Granite-4.0-Modelle wurden aus demselben 22T-Token-Korpus gespeist, der laut IBM aus DataComp-LM (DCLM), GneissWeb, TxT360-Subsets, Wikipedia und weiteren unternehmensrelevanten Quellen zusammengestellt ist. Für Inhalte, die Granite auf IBM watsonx.ai generiert, gewährt IBM eine unbegrenzte Freistellung bei Drittanbieter-IP-Ansprüchen.

Anzeige
Anzeige

Granite 4.0 umfasst vier Modellvarianten:

  • Granite-4.0-H-Small: hybrides Mixture-of-Experts-Modell (32B Parameter, 9B aktiv)
  • Granite-4.0-H-Tiny: hybrides MoE (7B Parameter, 1B aktiv)
  • Granite-4.0-H-Micro: dichtes Hybridmodell mit 3B Parametern
  • Granite-4.0-Micro: klassisches Transformer-Modell mit 3B Parametern

Das H-Small-Modell ist laut IBM als leistungsfähiger Allrounder für produktive Workflows konzipiert. Tiny und Micro richten sich an Low-Latency- oder Edge-Szenarien und können als schnelle Module in größeren agentischen Prozessen eingesetzt werden – etwa für Function Calling.

Scatterplot "Tool calling accuracy vs. Cost" mit BFCLv3‑Accuracy auf der Y‑Achse und gehostetem API‑Preis (USD pro 1M Tokens) auf der X‑Achse; ein hervorgehobener blauer Punkt markiert Granite‑4.0‑H‑Small in der günstigen oberen linken/mittele Zone des Diagramms, weitere graue Punkte zeigen teurere oder weniger genaue Modelle.
BFCLv3 misst, wie genau und günstig ein Modell externe Funktionen aufrufen kann; Granite 4.0‑H‑Small bietet dabei eine hohe Trefferquote zu niedrigen Kosten im Vergleich zu anderen Modellen. | Bild: IBM
Horizontales Balkendiagramm des Stanford HELM IFEval‑Leaderboards, das Instruktionsbefolgung evaluiert; oben Llama 4 Maverick (0,91), gefolgt von Granite 4.0‑H‑Small (0,89) und Granite 4.0‑Micro (0,85); darunter weitere Modelle mit niedrigeren Werten.
IFEval misst, wie zuverlässig Modelle expliziten Anweisungen folgen; Granite 4.0‑H‑Small erreicht laut IBM unter den Open‑Weight‑Modellen einen Spitzenwert und liegt knapp hinter Llama 4 Maverick. | Bild: IBM

Architektur

Technisch kombiniert Granite 4.0 Mamba-2- und Transformer-Schichten im Verhältnis 9:1. Während Transformer-Modelle bei langen Kontexten schnell an Speichergrenzen stoßen, skaliert Mamba linear mit der Sequenzlänge und benötigt konstanten Speicher. Positionskodierung wird nicht mehr benötigt: Mamba verarbeitet Eingaben sequenziell und erhält dabei die Reihenfolge automatisch.

Transformer bleiben laut IBM beim In‑Context‑Learning (z. B. Few‑Shot-Prompting) zwar im Vorteil. Doch durch die Hybridarchitektur sollen beide Ansätze bestmöglich kombiniert werden. Tiny und Small nutzen zudem Mixture‑of‑Experts‑Blöcke mit "shared experts", die permanent aktiviert sind, um die Parametereffizienz zu erhöhen.

Für reale Workloads nennt IBM bis zu 70 Prozent weniger RAM-Verbrauch im Vergleich zu reinen Transformer-Modellen, insbesondere bei langen Eingaben oder parallelen Sessions.

Empfehlung
Granite‑4.0‑H‑Tiny benötigt laut IBM deutlich weniger VRAM für lange Kontexte und parallele Sessions als vergleichbare reine Transformer-Modelle. | Bild: IBM

Granite 4.0 ist zudem kompatibel mit AMD Instinct MI-300X und durch die Zusammenarbeit mit Qualcomm und Nexa AI auch optimiert für den Einsatz auf Hexagon-NPUs, etwa auf Smartphones oder PCs.

Verfügbarkeit

Granite 4.0 Instruct ist in IBM watsonx.ai und bei Partnern verfügbar (Dell Pro AI Studio, Dell Enterprise Hub, Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE, Replicate). Base-Modelle stehen auf Hugging Face bereit. Der Zugang über Amazon SageMaker JumpStart und Microsoft Azure AI Foundry soll bald folgen.

Zum Einstieg verweist IBM auf den Granite Playground sowie die technischen Anleitungen in den Granite Docs. Außerdem werden Granite 4.0-Modelle von Tools wie Unsloth für effizientes Finetuning und Continue für Coding-Assistenten unterstützt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • IBM stellt mit Granite 4.0 eine Open-Source-KI-Sprachmodellreihe vor, die eine hybride Mamba/Transformer-Architektur nutzt, um den Speicherbedarf bei der Inferenz deutlich zu reduzieren und eine effiziente Verarbeitung auch bei langen Kontexten zu ermöglichen.
  • Die vier Open-Source-Modelle sind speziell auf Unternehmensanwendungen wie Kundenservice und RAG-Systeme ausgerichtet und bieten laut IBM bis zu 70 Prozent weniger RAM-Verbrauch als reine Transformer-Modelle.
  • Sie wurden nach ISO/IEC 42001:2023 zertifiziert, einer internationalen KI-Norm, die Anforderungen an Transparenz, Sicherheit und verantwortungsvollen Einsatz von KI-Systemen definiert.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!