Inhalt
summary Zusammenfassung

Alibabas Cloud-Computing-Abteilung hat eine neue Reihe von Sprachmodellen namens Qwen2-Math vorgestellt, die speziell für mathematische Aufgaben optimiert sind. In Benchmarks schneiden sie besser ab als generisch trainierte LLMs wie GPT-4 und Claude.

Anzeige

Qwen2-Math- und Qwen2-Math-Instruct-Modelle für Chats gibt es in verschiedenen Größen von 1,5 bis 72 Milliarden Parametern. Sie basieren auf den allgemeinen Qwen2-Sprachmodellen, wurden aber zusätzlich auf einem speziell zusammengestellten Mathematik-Korpus vortrainiert.

Dieser Korpus enthält große Mengen an hochwertigen mathematischen Webtexten, Büchern, Code, Prüfungsfragen und von Qwen2 synthetisierten mathematischen Vortrainingsdaten. Dadurch übertreffen die Qwen2-Math-Modelle laut Alibaba die mathematischen Fähigkeiten von generisch trainierten LLMs wie GPT-4.

Qwen2-Math übertrifft GPT-4, Claude und Co. in mathematischen Aufgaben

In Benchmarks wie GSM8K, Math und MMLU-STEM schneidet das größte Modell Qwen2-Math-72B-Instruct besser ab als Modelle wie GPT-4, Claude-3.5-Sonnet, Gemini-1.5-Pro und Llama-3.1-405B. Auch in chinesischen Mathematik-Benchmarks wie CMATH, GaoKao Math Cloze und GaoKao Math QA erzielt es Bestleistungen.

Anzeige
Anzeige
Bild: Alibaba

Fallstudien mit olympischen Mathematikaufgaben zeigen laut Alibaba, dass Qwen2-Math in der Lage ist, einfachere Aufgaben von Mathematik-Wettbewerben zu lösen. Das Qwen-Team betont jedoch, dass es die Korrektheit der Lösungswege nicht garantieren kann.

Um eine Verfälschung der Testergebnisse durch Überschneidungen zwischen Trainings- und Testdaten zu vermeiden, hat das Qwen-Team nach eigenen Angaben sowohl die Datensätze vor als auch nach dem Training bereinigt.

Derzeit unterstützen die Qwen2-Math-Modelle hauptsächlich Englisch. Das Team plant jedoch, in Kürze zweisprachige Modelle zu veröffentlichen, die sowohl Englisch als auch Chinesisch unterstützen. Auch die Entwicklung mehrsprachiger Modelle ist laut Alibaba in Vorbereitung.

Die Math-Modelle sind unter der Tongyi Qianwen-Lizenz bei Hugging Face verfügbar. Bei mehr als 100 Millionen Nutzern und Nutzerinnen pro Monat wird eine kommerzielle Lizenz benötigt.

Hybride KI-Systeme sollen LLMs Logik beibringen

Hinter der Qwen-Modellreihe steckt die Cloud-Computing-Einheit des chinesischen E-Commerce-Giganten Alibaba. Die erste Generation der Qwen-Sprachmodelle wurde von den Forschern im August 2023 veröffentlicht.

Empfehlung

Kürzlich stellte Alibaba mit Qwen2 eine deutlich leistungsfähigere Nachfolgegeneration vor, die Verbesserungen in Bereichen wie Programmierung, Mathematik, Logik und Mehrsprachigkeit bietet.

Alibaba will die Fähigkeit der Modelle, komplexe und anspruchsvolle mathematische Probleme zu lösen, weiter verbessern. Es ist jedoch unsicher, dass das Training von Sprachmodellen auf mathematische Probleme allein zu einer grundlegenden Verbesserung der logischen Fähigkeiten der Modelle führt.

Google Deepmind und vermutlich auch OpenAI setzen wohl eher auf hybride Systeme, die versuchen, die logischen Fähigkeiten klassischer KI-Algorithmen mit den Fähigkeiten der generativen KI zu verheiraten. Google Deepmind hat kürzlich mit AlphaProof ein erstes solches System vorgestellt. Die Skalierbarkeit per verstärkendem Lernen und Verallgemeinerbarkeit bleibt abzuwarten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibaba hat eine neue Reihe von Sprachmodellen namens Qwen2-Math vorgestellt, die speziell für mathematische Aufgaben optimiert sind und in Benchmarks besser abschneiden als generisch trainierte LLMs wie GPT-4 und Claude.
  • Die Qwen2-Math-Modelle basieren auf den allgemeinen Qwen2-Sprachmodellen, wurden aber zusätzlich auf einem speziellen Mathematik-Korpus vortrainiert, der Webtexte, Bücher, Code, Prüfungsfragen und synthetische Daten enthält.
  • Das Qwen-Team plant, in Kürze zweisprachige Modelle für Englisch und Chinesisch sowie mehrsprachige Modelle zu veröffentlichen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!