Inhalt
summary Zusammenfassung

Microsoft Research stellt mit Phi-4 ein KI-Sprachmodell vor, das es trotz seiner geringen Größe mit den Schwergewichten der Branche aufnehmen kann. Gezielt eingesetzte synthetische Trainingsdaten spielen eine entscheidende Rolle.

Anzeige

Microsoft Research hat ein neues KI-Sprachmodell namens Phi-4 entwickelt, das mit nur 14 Milliarden Parametern die Leistung von bis zu fünfmal größeren Modellen erreicht. Laut dem technischen Bericht des Unternehmens übertrifft Phi-4 sogar das eigene Lehrermodell GPT-4 bei der Beantwortung von Fragen aus den Bereichen Naturwissenschaft und Technik.

Besonders beeindruckend sind die Ergebnisse bei mathematischen Aufgaben: Bei Fragen auf Universitätsniveau erreicht das Modell laut Microsoft eine Trefferquote von 56,1 Prozent. Bei mathematischen Wettbewerbsaufgaben liegt die Trefferquote sogar bei 80,4 Prozent.

Benchmarking-Tabelle: Phi-4 (14B) im Vergleich zu anderen KI-Modellen, hervorragende Werte bei MMLU (84.8%) und MATH (80.4%).
Trotz seiner kompakten Größe erreicht Phi-4 bei MMLU 84.8 Prozent und bei HumanEval 82.6 Prozent – Werte, die mit deutlich größeren Modellen konkurrieren können. | Bild: Microsoft

Schwächen hat das Modell laut Microsoft hingegen bei der genauen Einhaltung von Prompts und Formatvorgaben wie Tabellen. Laut der Forscher lag der Fokus des Trainings auf Q&A und Reasoning, weniger auf strenger Befolgung von Anweisungen.

Anzeige
Anzeige

Wie alle LLMs kann Phi-4 halluzinieren, z.B. falsche Biographien für unbekannte Personen erfinden. Auch bei einfachen logischen Aufgaben kann Phi-4 Fehler machen. Zum Beispiel kann es fälschlicherweise zu dem Schluss kommen, dass 9,9 kleiner als 9,11 ist - ein beliebter LLM-Logik-Test.

Wie immer sind gute Benchmark-Ergebnisse keine Garantie für eine überzeugende Leistung in der Praxis. Frühere Phi-Modelle hatten ebenfalls hervorragende Benchmark-Ergebnisse, erwiesen sich aber in der Praxis als weniger brauchbar.

Synthetische Daten als Schlüssel zum Erfolg

Im Gegensatz zu den meisten Sprachmodellen, die hauptsächlich mit Webinhalten oder Code trainiert werden, verwendet Phi-4 gezielt generierte Datensätze. "Synthetische Daten sind kein billiger Ersatz für organische Daten, sondern bieten direkte Vorteile", heißt es im technischen Bericht.

Die Entwicklung von Phi-4 basiert laut Microsoft auf drei Säulen. Erstens der Einsatz hochwertiger, synthetischer "lehrbuchartiger" Daten für das Vor- und Zwischentraining. Die Forscher entwickelten 50 verschiedene Arten synthetischer Datensätze mit insgesamt etwa 400 Milliarden Token in Bereichen wie mathematisches Denken, Programmierung und Allgemeinwissen.

Zweitens, eine sorgfältige Auswahl und Filterung von qualitativ hochwertigen organischen Daten; neben öffentlichen Dokumenten und qualitativ hochwertigen Bildungsmaterialien verwendet das Modell auch Programmiercode.

Empfehlung

Drittens eine Weiterentwicklung der Trainingsmethoden in der Endphase, in der das Modell lernt, qualitativ hochwertige von weniger hochwertigen Antworten zu unterscheiden.

Eine technische Neuerung ist die Verwendung besonders wichtiger Schlüsselwörter, so genannter "pivotal tokens": bestimmte Tokens innerhalb einer Antwort, die einen überproportional großen Einfluss darauf haben, ob die Antwort richtig oder falsch ist.

Dabei kann es sich um ein bestimmtes Wort oder Symbol handeln, das im Sinne einer Weggabelung zu einem besseren oder schlechteren Ergebnis führt. Die Forscherinnen und Forscher entwickelten eine Methode, um diese Tokens zu identifizieren, und trainierten das Modell gezielt auf diese entscheidenden Wendepunkte, die bei eindeutigen Fragen zu richtigen Ergebnissen führten.

Das Team bezeichnet den Lernprozess von Phi-4 als "spoonfeeding" - "Fütterung mit dem Löffel" -, da das Modell die Informationen schrittweise und in "leicht verdaulicher" Form erhält.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Während organische Daten oft komplexe und indirekte Beziehungen zwischen Tokens aufweisen, seien synthetisch generierte Daten besser für das Training geeignet. Das Modell könne dadurch strukturierter lernen.

Bubeck kündigt Open-Weights-Veröffentlichung an

Der Microsoft-Phi-Entwickler Sebastien Bubeck, jetzt bei OpenAI tätig, kündigte auf X an, dass die Gewichte des Modells öffentlich zugänglich gemacht werden sollen. "Phi-4 spielt in der Liga von Llama 3.3-70B, mit fünfmal weniger Parametern", schreibt Bubeck.

Das Team testete Phi-4 auch an den amerikanischen Mathematik-Wettbewerben vom November 2024 - also an Aufgaben, die erst nach Abschluss des Trainings veröffentlicht wurden. Damit wollten die Forschenden ausschließen, dass die Testaufgaben bereits in den Trainingsdaten enthalten waren, was die Ergebnisse verfälscht hätte. Die guten Ergebnisse bei diesen garantiert neuen Aufgaben hätten das Team überrascht, so Bubeck.

Balkendiagramm: Vergleich von KI-Modellen bei AMC-Tests, Phi-4 führt mit 91.8%, gefolgt von Gemini Pro mit 89.8%.
Mit einer beeindruckenden Durchschnittsleistung von 91.8% auf den November 2024 AMC-Tests übertrifft Phi-4 alle Konkurrenzmodelle - sowohl größere als auch kleinere. | Bild: Microsoft

Phi-4 ist derzeit bei Microsofts Azure AI Foundry verfügbar und soll in der kommenden Woche bei HuggingFace veröffentlicht werden, voraussichtlich mit einer Forschungslizenz.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft Research hat mit Phi-4 ein KI-Sprachmodell entwickelt, das trotz seiner geringen Größe von nur 14 Milliarden Parametern in STEM-Aufgaben mit deutlich größeren Modellen mithalten und in bestimmten Fragekategorien sogar das eigene Lehrermodell GPT-4 übertreffen kann.
  • Der Schlüssel zum Erfolg liegt im massiven Einsatz synthetischer Trainingsdaten. Die Forscher entwickelten 50 verschiedene Arten synthetischer Datensätze mit insgesamt etwa 400 Milliarden Token. Hinzu kommen sorgfältig ausgewählte organische Daten sowie Weiterentwicklungen beim Post-Training.
  • Microsoft plant, die Modellgewichte ab kommender Woche öffentlich zugänglich zu machen. Die Phi-Modelle hatten schon in der Vergangenheit sehr gute Benchmark-Ergebnisse, waren in der Praxis aber weniger hilfreich.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!