Inhalt
summary Zusammenfassung

Eine neue Studie der Johns Hopkins University zeigt, wie zusätzliche Rechenzeit KI-Systemen hilft, besser einzuschätzen, wann sie eine Frage beantworten können und wann nicht.

Anzeige

Das Team untersuchte in einer Studie, wie sich zusätzliche Rechenzeit auf die Entscheidungsfindung von KI-Systemen auswirkt, und entwickelte ein neues Evaluationsframework, das die bisherigen Schwächen der KI-Bewertung adressiert.

Bisherige Evaluationsmethoden gehen davon aus, dass KI-Modelle immer eine Antwort geben sollten - unabhängig von ihrer Konfidenz. Dies entspricht laut dem Team jedoch nicht realen Anwendungsszenarien, in denen falsche Antworten schwerwiegende Folgen haben können.

Die Wissenschaftler testeten zwei Sprachmodelle - DeepSeek R1-32B und s1-32B - mit 30 mathematischen Aufgaben aus dem AIME24-Datensatz. Dabei variierten sie die zur Verfügung stehende Rechenzeit (konkret die Anzahl der zur Verfügung stehenden Reasoning-Token) und beobachteten das Verhalten der Modelle bei verschiedenen Konfidenzschwellen.

Anzeige
Anzeige

Die Ergebnisse zeigen: Mehr "Denkzeit" verbessert nicht nur die Genauigkeit der Antworten, sondern auch die Fähigkeit der Systeme zu erkennen, wann sie keine Antwort geben sollten. Die Modelle entwickelten mit zunehmender Rechenzeit ein besseres Gespür für ihre eigenen Grenzen und wurden bei richtigen Antworten immer selbstbewusster. Sie unterschieden klarer zwischen Fragen, die sie sicher beantworten konnten, und solchen, bei denen sie sich unsicher waren.

Verschiedene Risikoszenarien decken vorher unsichtbare Modellunterschiede auf

Die Forscher untersuchten drei verschiedene Risikoszenarien: "Exam Odds" ohne Strafe für falsche Antworten, "Jeopardy Odds" mit gleicher Gewichtung von Belohnung und Strafe sowie "High-Stakes Odds" mit hohen Strafen für Fehler - etwa in kritischen Entscheidungskontexten.

Dabei zeigte sich ein interessanter Unterschied zwischen den getesteten Modellen: Während beide unter Standardbedingungen ähnlich gut abschnitten, schnitt DeepSeek R1-32B unter strengeren Konfidenzanforderungen deutlich besser ab. Dieser Unterschied wurde erst durch das neue Testframework sichtbar.

Die Forscher räumen ein, dass ihre Methode zur Schätzung des Konfidenzniveaus ausschließlich auf Token-Wahrscheinlichkeiten basiert und möglicherweise nicht alle Aspekte der Modellunsicherheit abdeckt. Außerdem konzentrierten sich die Tests auf Mathematikaufgaben in englischer Sprache, so dass wichtige Variationen in anderen Bereichen und Sprachen möglicherweise nicht berücksichtigt wurden.

Das Forschungsteam empfiehlt, dass zukünftige Arbeiten zur Skalierung der Testzeit sowohl unter "Exam Odds" als auch unter "Jeopardy Odds" evaluiert werden sollten. Dieser umfassendere Evaluationsansatz würde Entwicklern helfen, das Verhalten ihrer Systeme in verschiedenen Risikokontexten besser zu verstehen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Johns Hopkins University untersuchten, wie sich zusätzliche Rechenzeit auf die Entscheidungsfindung von KI-Systemen auswirkt und entwickelten ein neues Evaluationsframework, das bisherige Schwächen der KI-Bewertung adressiert.
  • Die Ergebnisse zeigen: Mehr "Denkzeit" verbessert nicht nur die Genauigkeit der Antworten, sondern auch die Fähigkeit der Systeme zu erkennen, wann sie keine Antwort geben sollten. Mit zunehmender Rechenzeit entwickelten die Modelle auch ein besseres Gespür für ihre eigenen Grenzen.
  • Das getestete Modell DeepSeek R1-32B schnitt im Vergleich zu S1-32B unter strengeren Konfidenzanforderungen am besten ab - ein Unterschied, der erst durch das neue Testframework sichtbar wurde.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!