Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Microsoft gibt an, dass GPT-4 in Verbindung mit einer speziellen Prompting-Strategie eine höhere Punktzahl im MMLU-Benchmark (Measuring Massive Multitask Language Understanding) erreicht als Google Gemini Ultra.

Medprompt ist eine kürzlich von Microsoft vorgestellte Prompting-Strategie, die ursprünglich für medizinische Herausforderungen entwickelt wurde. Microsoft-Forschende stellten jedoch fest, dass sie auch für allgemeinere Anwendungen geeignet ist.

Durch die Ansteuerung von GPT-4 mit einer modifizierten Version von Medprompt hat Microsoft nun einen neuen State-of-the-Art (SoTA) Wert im MMLU Benchmark erreicht.

Die Ankündigung von Microsoft ist insofern besonders, als Google bei der großen Enthüllung seines neuen KI-Modells Gemini Ultra den neuen Bestwert des Ultra-Modells im MMLU-Benchmark besonders hervorhob.

Anzeige
Anzeige

Komplexe Prompts für bessere Benchmark-Ergebnisse: Microsoft trickst zurück

Schon die Kommunikation von Google bei der Vorstellung von Gemini war nicht ganz sauber: Das Modell erzielte zwar den bislang besten Wert im MMLU, aber mit einer komplexeren Prompting-Strategie als in diesem Benchmark Standard. Mit der Standard-Prompting-Strategie (5-Shot) schneidet Gemini Ultra im MMLU schlechter ab als GPT-4.

Die jetzt von Microsoft mit Medprompt+ kommunizierte GPT-4-Leistung im MMLU erreicht einen Rekordwert von 90,10 Prozent und übertrifft damit den Wert von Gemini Ultra von 90,04 Prozent.

Bild: Microsoft

Um dieses Ergebnis zu erzielen, erweiterten die Microsoft-Forscher Medprompt zu Medprompt+, indem sie nach eigenen Angaben Medprompt eine einfachere Prompting-Methode hinzufügten und eine Strategie zur Ableitung einer endgültigen Antwort formulierten, die Antworten sowohl der grundlegenden Medprompt-Strategie als auch der einfachen Prompting-Methode kombiniert.

Der MMLU-Benchmark ist ein umfassender Test des Allgemeinwissens und des logischen Denkens. Er umfasst Zehntausende von Aufgaben aus 57 Fachgebieten, darunter Mathematik, Geschichte, Recht, Informatik, Ingenieurwesen und Medizin. Für Sprachmodelle gilt er als der wichtigste Benchmark.

GPT-4 soll Gemini Ultra in noch mehr Benchmarks übertreffen

Neben dem MMLU-Benchmark hat Microsoft Ergebnisse für weitere Benchmarks zur Verfügung gestellt, die die Leistung von GPT-4 mit einfachen, für diese Benchmarks üblichen Prompts im Vergleich zu Gemini Ultra zeigen. GPT-4 soll Gemini Ultra nach dieser Messmethode in verschiedenen Benchmarks übertreffen, darunter GSM8K, MATH, HumanEval, BIG-Bench-Hard, DROP und HellaSwag.

Empfehlung
Bild: Microsoft

Microsoft veröffentlicht Medprompt und andere Ansätze in einem GitHub-Repository namens Promptbase. Das Repository enthält Skripte, allgemeine Werkzeuge und Informationen, die helfen sollen, die Ergebnisse zu reproduzieren und die Leistung der Basismodelle zu verbessern.

Die meist geringen Unterschiede in den Benchmarks dürften in der Praxis keine große Rolle spielen, sie dienen Microsoft und Google vor allem zu PR-Zwecken. Was Microsoft hier jedoch untermauert und was sich bereits bei der Ankündigung von Ultra andeutete, ist, dass beide Modelle wohl gleichauf liegen.

Das könnte bedeuten, dass OpenAI entweder Google voraus ist - oder es sehr schwierig sein wird, ein deutlich leistungsfähigeres KI-Modell als GPT-4 zu entwickeln. Möglicherweise stößt die LLM-Technologie in ihrer jetzigen Form bereits an ihre Grenzen. GPT-4.5 oder GPT-5 von OpenAI könnten hier Klarheit schaffen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft behauptet, dass GPT-4 mit einer speziellen Prompting-Strategie namens Medprompt+ eine höhere Punktzahl im MMLU-Benchmark erreicht als Google Gemini Ultra.
  • Medprompt wurde ursprünglich für medizinische Herausforderungen entwickelt, aber Microsoft-Forscher haben herausgefunden, dass es auch für allgemeinere Anwendungen geeignet sein könnte.
  • GPT-4 soll Gemini Ultra auch in mehreren anderen Benchmarks übertreffen, darunter GSM8K, MATH, HumanEval, BIG-Bench-Hard, DROP und HellaSwag.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!