Inhalt
summary Zusammenfassung

Mit SciArena steht erstmals eine offene Plattform zur Verfügung, die große Sprachmodelle anhand menschlicher Präferenzen bei wissenschaftlichen Literaturaufgaben bewertet. Erste Ergebnisse zeigen deutliche Unterschiede zwischen den Modellen.

Anzeige

Mit SciArena stellen Forschende der Yale University, der New York University und des Allen Institute for AI eine neue offene Evaluierungsplattform für LRMs und LLMs vor. Die Plattform soll die Leistungsfähigkeit großer Sprachmodelle bei der Bearbeitung wissenschaftlicher Literaturaufgaben vergleichbar machen – ein Bereich, der bisher kaum systematisch untersucht wurde.

Im Gegensatz zu klassischen Benchmarks beruht SciArena auf der Bewertung durch echte Forschende und gleicht in der Bewertungsmethodik der Chatbot Arena: Nutzerinnen und Nutzer stellen wissenschaftliche Fragen, erhalten zwei modellgenerierte, zitierte Langformantworten und entscheiden, welche Antwort besser ist. Die zugrunde liegende Literatur wird mithilfe einer angepassten Retrieval-Pipeline auf Basis von ScholarQA zusammengestellt.

Insgesamt wurden über 13.000 Bewertungen von 102 Forschenden aus Natur-, Ingenieur-, Lebens- und Sozialwissenschaften gesammelt. Die Fragen decken ein breites Spektrum ab, von konzeptionellen Erklärungen bis zur Literatursuche.

Anzeige
Anzeige

o3 dominiert, Open Source überzeugt

OpenAIs o3 führt das aktuelle Leaderboard an, vor Claude-4-Opus und Gemini-2.5-Pro. Unter den Open-Source-Modellen sticht Deepseek-R1-0528 hervor und übertrifft damit mehrere proprietäre Systeme.

Bild: Ai2

Besonders in den Natur- und Ingenieurswissenschaften zeigt o3 laut dem Team überlegene Leistungen.

Bild: Ai2

Analysen der Forschenden zeigen, dass Nutzer nicht nur auf die Anzahl der Zitationen achten, sondern vor allem auf deren korrekte Zuordnung zu den Aussagen. Der Einfluss von Stilmerkmalen wie Antwortlänge ist in demnach SciArena geringer als in vergleichbaren Plattformen wie Chatbot Arena oder Search Arena.

Automatische Bewertung bleibt schwierig

Mit SciArena-Eval haben die Forschenden zudem einen neuen Benchmark eingeführt, der die Fähigkeiten von Sprachmodellen zur Bewertung anderer Antworten testet. Die besten Modelle erreichen hier nur rund 65 Prozent Übereinstimmung mit menschlichen Präferenzen – ein deutlicher Hinweis auf die Grenzen aktueller LLM-as-a-Judge-Systeme im wissenschaftlichen Kontext.

SciArena ist öffentlich zugänglich, der Code, die Daten und das SciArena-Eval-Benchmark sind Open Source. Ziel ist es, die Entwicklung besserer, menschennaher Modelle im Bereich der wissenschaftlichen Information zu fördern. Künftig soll das System um eine Evaluierung für agentenbasierte Recherche-Plattformen erweitert werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit SciArena steht erstmals eine offene Plattform zur Verfügung, die große Sprachmodellee anhand menschlicher Präferenzen bei wissenschaftlichen Literaturaufgaben bewertet. Die Plattform sammelt Bewertungen von Forschenden, die modellgenerierte Antworten zu Fachfragen vergleichen und bevorzugen.
  • OpenAIs o3 führt das Leaderboard an und zeigt besonders in Natur- und Ingenieurswissenschaften starke Leistungen. Deepseek-R1-0528 überzeugt unter den Open-Source-Modellen und überholt mehrere proprietäre Systeme.
  • Automatische Bewertungsverfahren bleiben schwierig: Die besten Modelle stimmen nur zu etwa 65 Prozent mit menschlichen Präferenzen überein. SciArena ist öffentlich zugänglich, und alle Komponenten sind Open Source, um die Entwicklung besserer Modelle zu unterstützen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!