Inhalt
summary Zusammenfassung

Microsoft erweitert die Phi-Modellreihe um drei spezialisierte Reasoning-Modelle. Trotz geringer Größe übertreffen sie in Benchmarks deutlich größere Konkurrenten.

Anzeige

Microsoft hat mit Phi-4-reasoning, Phi-4-reasoning-plus und Phi-4-mini-reasoning drei neue Sprachmodelle veröffentlicht, die mittels Gedankenketten (Chain of Thought) in der Lage sein sollen, durch mehrstufige Denkprozesse und interne Reflexion komplexe Probleme zu zerlegen und zu lösen.

Die Modelle gehören zu Microsofts Small-Language-Modell-Familie Phi und sind so konzipiert, dass sie insbesondere auf Hardware mit geringerer Leistung, etwa mobilen Geräten, Reasoning-Fähigkeiten ermöglichen sollen.

Kleine Modelle mit großer Leistung

Das Modell Phi-4-reasoning hat 14 Milliarden Parameter und wurde mithilfe von Supervised Fine-Tuning auf ausgewählten Reasoning-Pfaden von OpenAIs o3-mini trainiert. Phi-4-reasoning-plus geht einen Schritt weiter: Es nutzt zusätzlich Reinforcement Learning, verarbeitet 1,5-mal mehr Tokens als das Basis-Modell und erzielt dadurch höhere Genauigkeit. Dafür dauert die Generierung der Antworten länger und die Kosten steigen.

Anzeige
Anzeige
Balkendiagramm: Vergleich der Reasoning-Leistung von Phi-4 (14B) mit DeepSeek (70B, 671B) und o-mini auf AIME, HMMT, OmniMath, GPQA.
Trotz ihrer geringeren Größe (14B Parameter) übertreffen oder erreichen die Phi-4-Reasoning-Modelle die Leistung deutlich größerer Modelle. Auch die Effizienz des Deepseek-R1-Modells wird damit relativiert. | Bild: Microsoft

Beide Modelle übertreffen laut Microsoft deutlich größere Sprachmodelle wie OpenAI o1-mini und DeepSeek-R1-Distill-Llama-70B – letzteres ist fünfmal größer. Selbst im Vergleich zum 671-Milliarden-Parameter-Modell DeepSeek-R1 schneiden die Phi-Modelle auf dem AIME-2025-Test, einer Qualifikation zur US-Mathematik-Olympiade, besser ab.

Die Leistungssteigerungen beschränken sich dabei nicht nur auf mathematische oder wissenschaftliche Aufgaben auf PhD-Niveau, sondern zeigen sich laut Microsoft auch in Bereichen wie Coding, algorithmischer Problemlösung und Planungsaufgaben. Die Verbesserungen im logischen Denken würden auch auf allgemeinere Fähigkeiten wie das Befolgen von Prompts oder die Beantwortung von Fragen in langen Texten positiv abstrahlen.

Balkendiagramm: Genauigkeitsvergleich von Phi-4, GPT-4o und o3-mini auf Benchmarks wie FlenQA, IFEval, HumanEvalPlus, MMLUPro.
Die Phi-4-Reasoning-Modelle konkurrieren auch in Benchmarks wie Codierung (HumanEvalPlus) und Sprachverständnis (MMLUPro) erfolgreich mit größeren Modellen wie GPT-4o und o3-mini. | Bild: Microsoft

Phi-4-mini-reasoning für mobile Anwendungen

Mit Phi-4-mini-reasoning stellt Microsoft ein besonders kompaktes Modell vor, das für den Einsatz auf Mobilgeräten, in der Bildung oder eingebetteten Tutorensystemen gedacht ist. Das Modell basiert auf einer Architektur mit 3,8 Milliarden Parametern und wurde mit über einer Million mathematischer Aufgaben trainiert – von Mittelschulniveau bis zu Promotionsaufgaben.

Balkendiagramm: Leistung von Phi-4-mini-reasoning (3.8B) vs. größere Modelle auf Mathe-Benchmarks (AIME 24, MATH-500, GPQA Diamond).
Das Phi-4-mini-reasoning-Modell (3.8B Parameter) übertrifft sein Basismodell sowie größere Sprachmodelle auf Mathe-Benchmarks. | Bild: Microsoft

Trotz seiner geringen Größe übertrifft Phi-4-mini-reasoning bei mehreren Benchmarks größere Modelle wie OpenThinker-7B oder DeepSeek-R1-Distill-Qwen-7B. Im Bereich der mathematischen Problemlösung erreicht es vergleichbare oder bessere Ergebnisse als OpenAIs o1-mini.

Integration in Windows-Systeme

Die Modelle sind laut Microsoft bereits für den Einsatz ins Windows-Ökosystem optimiert. Eine Variante namens Phi Silica wird in Copilot+ PCs eingesetzt. Sie läuft lokal auf NPUs und bietet schnellere Reaktionszeiten sowie geringeren Energieverbrauch. Nutzer finden sie unter anderem in Anwendungen wie Outlook (für Offline-Zusammenfassungen) oder in der Funktion „Click to Do“, die kontextbezogene Textfunktionen auf dem Bildschirm anbietet.

Empfehlung

Alle drei Modelle – Phi-4-reasoning, Phi-4-reasoning-plus und Phi-4-mini-reasoning – sind mit offenen Gewichten auf Azure AI Foundry und Hugging Face verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft hat drei neue, kleine Sprachmodelle der Phi-Reihe vorgestellt: Phi-4-reasoning, Phi-4-reasoning-plus und Phi-4-mini-reasoning, die für Reasoning-Aufgaben auf leistungsschwächerer Hardware ausgelegt sind.
  • Die Modelle mit 14 Milliarden (Phi-4-reasoning/-plus) und 3,8 Milliarden Parametern (Phi-4-mini-reasoning) übertreffen laut Microsoft in Benchmarks teils deutlich größere Modelle wie OpenAI o1-mini oder DeepSeek-Varianten, auch bei mathematischen Aufgaben.
  • Die Modelle sind mit offenen Gewichten auf Azure AI Foundry und Hugging Face verfügbar.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!