Anzeige
Skip to content

Google beschleunigt Gemma 4 mit Multi-Token-Prediction um das Dreifache

Google hat für seine offene KI-Modellfamilie Gemma 4 sogenannte Multi-Token-Prediction-Drafter (MTP) veröffentlicht, die die Textgenerierung bis zu dreimal beschleunigen sollen. Normalerweise erzeugen große Sprachmodelle Text Worteinheit für Worteinheit.Bei jedem einzelnen Schritt müssen dabei Milliarden Parameter aus dem Speicher geladen werden. Der eigentliche Rechenkern des Prozessors ist dabei kaum ausgelastet, denn er wartet die meiste Zeit nur auf Daten aus dem Speicher.

Genau hier setzt die MTP-Technik an: Während das große Hauptmodell auf seine Daten wartet, nutzt ein kleines, schnelles Hilfsmodell die freie Rechenkapazität und schlägt gleich mehrere Wörter auf einmal vor. Das große Hauptmodell prüft diese Vorschläge dann gebündelt in einem einzigen Durchgang. Stimmen die Vorschläge, werden alle auf einmal übernommen. Zwar sind zwei Modelle im Einsatz, aber das kleine Hilfsmodell füllt Leerlaufzeiten, die sonst ungenutzt blieben. So entsteht derselbe Text in deutlich kürzerer Zeit, angeblich ohne Einbußen bei Qualität und Genauigkeit.

Laut Google profitieren davon Smartphones, lokale Rechner und Cloud-Anwendungen. Die Drafter stehen unter der offenen Apache-2.0-Lizenz auf Hugging Face und Kaggle bereit. Das Anfang April vorgestellte Open-Weight-Modell Gemma 4 wurde laut Google bereits über 60 Millionen Mal heruntergeladen.

Anzeige
DEC_D_Incontent-1

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Google Blog