Inhalt
summary Zusammenfassung

Microsoft hat Phi-4-mini-flash-reasoning vorgestellt, ein neues KI-Modell für Szenarien mit begrenzter Rechenleistung, Speicher und Latenz. Das Modell soll Fähigkeiten zur Schlussfolgerung auf Edge-Geräte, mobile Anwendungen und andere ressourcenbeschränkte Umgebungen bringen.

Anzeige

Das neue Modell verfügt über 3,8 Milliarden Parameter und ist für mathematisches Reasoning optimiert. Es baut auf der im Dezember vorgestellten Phi-4-Familie auf.

Neue Architektur mit "Gated Memory Unit"

Die Grundlage von Phi-4-mini-flash-reasoning ist die SambaY-Architektur, die für dieses Modell um "differenzielle Aufmerksamkeit" erweitert wurde. Deren zentrale Innovation ist die Gated Memory Unit (GMU), ein Mechanismus, der die Effizienz des Modells drastisch verbessert.

Herkömmliche Transformer-Architekturen verwenden in jeder Schicht aufwendige Attention-Mechanismen, um die Relevanz verschiedener Input-Teile zu bewerten. Die GMU reduziert diese Komplexität erheblich: Statt rechenintensiver Cross-Attention-Operationen nutzt sie eine elementweise Multiplikation zwischen dem aktuellen Layer-Input und einem Speicherzustand aus einer vorherigen Schicht.

Anzeige
Anzeige

Diese Vereinfachung ermöglicht eine dynamische Neukalibrierung der Token-Mischung basierend auf dem aktuellen Kontext, ohne die hohen Rechenkosten traditioneller Attention-Mechanismen.

Hybrid-Decoder-Architektur mit Mamba/SWA-Selbstdecoder, GMU-gestützter Cross-Attention und linearem KV-Cache-Prefill.
Die SambaY-Architektur kombiniert verschiedene Aufmerksamkeitsmechanismen: Eine Full-Attention-Schicht erstellt einmalig einen Schlüssel-Wert-Speicher (KV-Cache), den alle nachfolgenden Schichten nutzen. Gated Memory Units (GMUs) ersetzen die Hälfte der rechenintensiven Cross-Attention-Schichten und teilen Informationen zwischen den Schichten durch einfache Multiplikation, was Rechenzeit und Speicher spart. | Bild: Microsoft

Die Architektur ersetzt die Hälfte der Cross-Attention-Schichten mit GMUs und reduziert dadurch den Speicherbedarf erheblich. Während bei herkömmlichen Modellen die Datentransfers zwischen Arbeitsspeicher und Prozessor mit der Sequenzlänge linear ansteigen, bleibt dieser Aufwand bei der SambaY-Architektur weitgehend konstant.

Deutliche Performance-Verbesserungen

Die architektonischen Änderungen führen zu beeindruckenden Leistungssteigerungen: Laut Microsoft erreicht Phi-4-mini-flash-reasoning einen bis zu zehnmal höheren Durchsatz sowie eine durchschnittliche Latenzreduzierung um das Zwei- bis Dreifache im Vergleich zu seinem Vorgänger. Die veröffentlichten Ergebnisse erzielte Phi-4-mini-flash-reasoning jedoch auf einer industriellen GPU – nicht auf einem ressourcenschwachen Gerät, für das das Modell eigentlich optimiert ist.

Punktdiagramm: Inferenzlatenz von Phi4-mini-Reasoning und Phi4-mini-Flash-Reasoning über Generationslängen bis 32 000 Tokens.
Die Latenz der Modellausgabe wächst mit längeren Generationen stark an und erreicht bei 32.000 Tokens über 800 s für Phi4-mini-Reasoning. Phi4-mini-Flash-Reasoning bleibt hingegen mit ca. 350 s deutlich schneller und zeigt so die Effizienzsteigerung der Flash-Methode. | Bild: Microsoft
Streudiagramm: Latenz vs Durchsatz für Standard- und Flash-Reasoning, Flash erzielt 10× höheren Durchsatz bei gleicher Latenz.
Flash-Reasoning reduziert die Inferenzlatenz gegenüber Standard-Reasoning drastisch, sodass bei gleicher Latenzbereitschaft (ca. 700 s) die Durchsatzrate um das Zehnfache steigt. | Bild: Microsoft

Ein Vorteil von Phi-4-mini-flash-reasoning zeigt sich zudem bei der Verarbeitung langer Kontexte. Das Modell unterstützt eine Kontextlänge von bis zu 64.000 Token und behält dabei seine Leistungsfähigkeit auch bei maximaler Auslastung bei.

Laut Microsoft profitiert das Modell von der effizienten SambaY-Architektur, die auch bei längeren Sequenzen eine konstante Verarbeitungsgeschwindigkeit ermöglicht. Dies ist ein deutlicher Vorteil gegenüber herkömmlichen Transformer-Modellen, die bei steigender Kontextlänge typischerweise an Performance verlieren.

Empfehlung

Flash-Variante übertrifft Basismodell

Laut dem technischen Paper wurde Phi-4-mini-flash mit fünf Billionen Token aus dem gleichen Datenkorpus wie Phi-4-mini trainiert, der teilweise aus synthetischen Daten besteht. Das Training erfolgte auf 1.000 A100-GPUs über 14 Tage.

In umfangreichen Tests übertrifft das neue Modell seinen Vorgänger in nahezu allen Bereichen. Besonders deutlich zeigen sich die Verbesserungen bei wissensintensiven Aufgaben und Programmieraufgaben, wo das Modell mehrere Prozentpunkte zulegt. Auch bei mathematischen Aufgaben, Code-Generierung und wissenschaftlichen Reasoning-Aufgaben schneidet Phi-4-mini-flash-reasoning merklich besser ab - und das ohne die aufwendige Reinforcement-Learning-Stufe des Vorgängers.

Balkendiagramm: Pass@1-Genauigkeit von sechs Modellen auf AIME24, AIME25, Math-500 und GPQA Diamond, Phi-4-mini-flash-reasoning am höchsten.
Die Flash-Variante ist nicht nur besser als ihr Basismodell, sondern übertrifft teilweise auch doppelt so große Modelle. | Bild: Microsoft

Das Modell ist unter anderem auf Hugging Face verfügbar und Microsoft stellt Code-Beispiele im Phi Cookbook zur Verfügung. Die Trainingscodebase wurde auf GitHub unter Open-Source-Lizenz veröffentlicht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft hat mit Phi-4-mini-flash-reasoning ein neues KI-Modell vorgestellt, das speziell für den Einsatz auf Geräten mit begrenzter Rechenleistung und Speicher optimiert ist und mathematisches Reasoning unterstützt.
  • In Tests zeigt Phi-4-mini-flash-reasoning eine bis zu zehnfach höhere Durchsatzrate und reduzierte Latenz im Vergleich zum Vorgänger, erzielt bessere Ergebnisse bei wissensintensiven und Programmieraufgaben und ist als Open-Source-Modell auf Hugging Face und GitHub verfügbar.
  • Die Fortschritte wurden durch Innovationen in der Modellarchitektur erreicht.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!