Inhalt
summary Zusammenfassung

Microsoft erweitert seine Phi-Familie um zwei neue KI-Modelle: Phi-4-multimodal verarbeitet Sprache, Bilder und Text gleichzeitig, während Phi-4-mini als kompaktes Textmodell überzeugen soll.

Anzeige

Die Besonderheit von Phi-4-multimodal liegt laut Microsoft in seinem "mixture-of-LoRAs"-Ansatz, der die gleichzeitige Verarbeitung von Text-, Audio- und visuellen Eingaben im selben Repräsentationsraum ermöglicht. Dadurch würden komplexe Pipelines oder separate Modelle für verschiedene Modalitäten überflüssig.

Microsoft gibt an, dass es bei der automatischen Spracherkennung (ASR) mit einer Wortfehlerrate von 6,14 Prozent an der Spitze des Huggingface OpenASR-Leaderboards steht und damit spezialisierte Modelle wie WhisperV3 und SeamlessM4T-v2-Large übertrifft. Auch bei der Sprachübersetzung und der Sprachzusammenfassung soll das Modell Spitzenleistungen erbringen.

Trotz seiner geringen Größe zeigt das Modell laut Microsoft zudem bei Vision-Aufgaben starke Leistungen, insbesondere beim mathematischen und wissenschaftlichen Schlussfolgern. Bei Dokumenten- und Diagrammverständnis, optischer Zeichenerkennung und visuellem wissenschaftlichem Schlussfolgern soll es mit größeren Modellen wie Gemini-2-Flash-lite-preview und Claude-3.5-Sonnet mithalten können.

Anzeige
Anzeige
Vergleichstabelle: Benchmark-Ergebnisse von 5 LLM-Modellen für AI2D, ChartQA, DocVQA und InfoVQA, Phi-4 führend mit Spitzenwerten.
Microsofts Phi-4-multimodal-instruct übertrifft bei visuellen Verständnisaufgaben die Konkurrenzmodelle. Die Benchmarks messen die Fähigkeit, Diagramme zu verstehen (AI2D), Grafiken zu analysieren (ChartQA), Dokumente zu interpretieren (DocVQA) und Informationen aus visuellen Inhalten zu extrahieren (InfoVQA) - mit Phi-4 als klarem Spitzenreiter bei DocVQA (87,3%). | Bild: Microsoft

Phi-4-mini: Effizientes Mini-LLM für Textaufgaben

Das zweite vorgestellte Modell, Phi-4-mini, hat 3,8 Milliarden Parameter und ist als dichter Decoder-only-Transformer konzipiert mit einem 128K-Kontextfenster. Es ist laut Microsoft für Geschwindigkeit und Effizienz optimiert.

Eine besondere Stärke von Phi-4-mini ist laut Microsoft das sogenante Function Calling, also die automatische Verwendung externer Werkzeuge. Durch ein standardisiertes Protokoll kann das Modell Anfragen analysieren, relevante Funktionen mit passenden Parametern aufrufen, die Ergebnisse empfangen und in seine Antworten integrieren. Laut Microsoft eignet sich Phi-4 daher für agentenbasierten Systems, bei dem das Modell mit externen Tools, APIs und Datenquellen verbunden werden kann.

Balkendiagramm: Vergleich von 10 KI-Sprachmodellen über 7 Benchmarks (MMLU-Pro bis HumanEval), Phi-4 führend bei GSM8K mit 89,8%.
Microsofts Phi-4-Mini zeigt im Verhältnis zur größe gute Leistungen in verschiedenen Benchmark-Tests, besonders bei GSM8K mit 89,8% Genauigkeit. Das kompakte Modell übertrifft dabei teilweise deutlich größere Konkurrenten wie Llama und Mistral. | Bild: Microsoft

Microsoft sieht vielfältige Einsatzmöglichkeiten für die neuen Modelle. Phi-4-multimodal könnte in Smartphones integriert werden, um Sprachbefehle zu verarbeiten und Bilder zu analysieren. Im Automobilbereich könnte es Fahrerassistenzsysteme verbessern.

Phi-4-mini eignet sich laut Microsoft besonders für Finanzdienstleistungen, wo es bei komplexen Berechnungen, der Generierung von Berichten und der Übersetzung von Finanzdokumenten unterstützen kann.

Beide Modelle wurden vom Microsoft AI Red Team auf Sicherheit getestet und sind über Azure AI Foundry, Hugging Face und den NVIDIA API Catalog verfügbar.

Empfehlung

Ebenfalls zur Phi-Familie gehört das Textmodell Phi-4-14B, das Microsoft bereits im Dezember vorstellte und im Januar mit Gewichten veröffentlichte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft erweitert seine Phi-Familie um zwei neue KI-Modelle: Phi-4-multimodal verarbeitet gleichzeitig Sprache, Bilder und Text, während Phi-4-mini mit 3,8 Milliarden Parametern auf textbasierte Aufgaben spezialisiert ist.
  • Phi-4-multimodal nutzt einen "mixture-of-LoRAs"-Ansatz für die gleichzeitige Verarbeitung verschiedener Eingabetypen und übertrifft laut Microsoft bei der automatischen Spracherkennung spezialisierte Modelle wie WhisperV3 mit einer Wortfehlerrate von 6,14 Prozent.
  • Phi-4-mini unterstützt Function Calling für die Nutzung externer Werkzeuge und kann Sequenzen mit bis zu 128.000 Token verarbeiten. Beide Modelle wurden auf Sicherheit getestet und sind über Azure AI Foundry, Hugging Face und den NVIDIA API Catalog verfügbar.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!