Inhalt
summary Zusammenfassung

Ein von Spitzenmathematikern entwickelter Benchmark namens FrontierMath offenbart, dass selbst die fortschrittlichsten KI-Systeme bei komplexen mathematischen Aufgaben nahezu vollständig versagen.

Anzeige

Laut dem KI-Forschungsunternehmen Epoch AI lösen selbst die fortschrittlichsten KI-Modelle wie o1-preview, GPT-4o, Claude 3.5 und Gemini 1.5 Pro weniger als zwei Prozent der Aufgaben im neuen FrontierMath-Benchmark - und das, obwohl sie bei bisherigen Mathematik-Tests Erfolgsquoten von über 90 Prozent erreichen.

Horizontales Balkendiagramm: Leistungsvergleich führender KI-Modelle bei FrontierMath, maximal 2 Prozent Erfolgsquote bei Gemini 1.5 Pro.
Selbst die leistungsfähigsten Sprachmodelle wie Gemini 1.5 Pro und Claude 3.5 schaffen es nur, etwa 2 Prozent der FrontierMath-Probleme zu lösen. Dies unterstreicht die anhaltende Herausforderung komplexer mathematischer Problemlösung für KI-Systeme. | Bild: Epoch AI

Für FrontierMath haben mehr als 60 führende Mathematikerinnen und Mathematiker hunderte neuer, extrem anspruchsvolle mathematische Probleme entwickelt. Die Probleme decken fast alle Bereiche der modernen Mathematik ab - von rechenintensiven Aufgaben der Zahlentheorie bis zu abstrakten Fragen der algebraischen Geometrie.

Laut EpochAI stecken hinter den Aufgaben oft stunden- oder tagelange Arbeit. Jede Aufgabe durchläuft ein Peer-Review durch Experten, die Korrektheit und Schwierigkeitsgrad prüfen. Bei Stichproben wurde eine Fehlerquote von etwa 5 Prozent festgestellt - vergleichbar mit anderen großen Machine-Learning-Benchmarks wie ImageNet.

Anzeige
Anzeige

Die stark abweichenden Ergebnisse zwischen den etablierten Tests und dem neuen Benchmark zeigen ein grundsätzliches Problem bei der Bewertung von KI-Systemen: KI-Tests erfassen immer nur einen sehr spezifischen Ausschnitt von Fähigkeiten.

Balkendiagramm: Vergleich von 7 KI-Mathematik-Benchmarks, FrontierMath mit 98,3% ungelöster Probleme führend.
Die FrontierMath-Benchmark offenbart eine erhebliche Leistungslücke aktueller KI-Modelle bei komplexen mathematischen Aufgaben. Während etablierte Benchmarks wie GSM-8k fast vollständig gelöst werden, bleiben bei FrontierMath über 98 Prozent der Probleme ungelöst. | Bild: Epoch AI

Außerdem haben die Forschenden einen Anreiz, die Modelle für genau diese Fähigkeiten zu optimieren, um gute Benchmark-Ergebnisse zu erzielen. Das müssen sie auch, schließlich fließen Millionen in die Entwicklung.

Das Paradox der KI-Bewertung

Der ehemalige OpenAI-Entwickler Andrej Karpathy sieht in den Ergebnissen eine neue Variante des Moravec-Paradoxons. Das Paradox besagt, dass KI-Systeme zwar beeindruckende analytische Leistungen erbringen und komplexe geschlossene Probleme lösen können, wenn diese klar formuliert sind, etwa auf hohem Niveau Schach spielen.

Sie versagen jedoch bei scheinbar einfachen Aufgaben, die gesunden Menschenverstand oder intuitives Problemlösen erfordern, und haben Schwierigkeiten, Lösungssequenzen zu entwickeln, die Menschen leicht fallen können.

"Trotz hervorragender Testergebnisse würde man sie [die LLMs] nicht anstelle eines Menschen für die einfachsten Arbeiten einstellen", sagt Karpathy.

Empfehlung

Neue Arten von Tests seien nötig, um auch diese "einfachen" Fähigkeiten zu bewerten - vom Alltagsverständnis bis zur Fähigkeit, wie ein Praktikant selbstständig zu arbeiten.

Die Forscher von Epoch AI sehen in der Mathematik jedoch einen besonders geeigneten "Sandkasten", um komplexe Denkprozesse zu evaluieren. Sie erfordere Kreativität und lange Ketten präziser Logik, ermögliche aber gleichzeitig eine objektive Überprüfung der Ergebnisse.

Sie wollen den Benchmark kontinuierlich weiterentwickeln und regelmäßige Auswertungen durchführen, um die Fortschritte von KI-Systemen im mathematischen Denken zu dokumentieren. Außerdem sollen in den kommenden Monaten weitere Beispielaufgaben veröffentlicht werden, um der Forschungsgemeinschaft weitere Einblicke zu ermöglichen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Der neue FrontierMath-Benchmark, entwickelt von führenden Mathematikern, zeigt, dass selbst fortschrittlichste KI-Systeme wie GPT-4, Claude 3.5 und Gemini 1.5 Pro bei komplexen mathematischen Aufgaben nahezu vollständig versagen und weniger als zwei Prozent der Probleme lösen können.
  • Der Benchmark umfasst hunderte extrem anspruchsvolle Mathematikaufgaben aus fast allen Bereichen der modernen Mathematik, die von Experten entwickelt und geprüft wurden.
  • Die stark abweichenden Ergebnisse zwischen etablierten Tests und FrontierMath zeigen ein grundsätzliches Problem bei der Bewertung von KI-Systemen: Bestehende Tests erfassen nur einen spezifischen Ausschnitt von Fähigkeiten. Zudem fehlen Tests, die "einfache" Fähigkeiten wie Alltagsverstand und selbstständiges Arbeiten bewerten.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!