Neue Inferenzmethode DeepConf kann LLM-Reasoning-Aufwand deutlich reduzieren

31. August 2025

GPT-4o prompted by THE DECODER

Kurz & Knapp

Meta und die UC San Diego haben mit DeepConf eine Methode entwickelt, die die Unsicherheitswerte von Sprachmodellen nutzt, um mathematisches Reasoning effizienter und genauer zu machen.
DeepConf bewertet Reasoning-Pfade anhand interner Confidence-Signale und filtert schwache Lösungswege frühzeitig aus – der Tokenverbrauch sinkt um bis zu 85 Prozent, während die Genauigkeit auf bis zu 99,9 Prozent steigt.
In Tests mit fünf Open-Source-Modellen und mehreren Benchmarks zeigte die Methode konsistente Einsparungen ohne zusätzliches Training, hat aber Schwächen bei Fällen, in denen das Sprachmodell bei falschen Antworten sehr überzeugt ist.

Die neue Methode DeepConf (Deep Think with Confidence) von Meta und der University of California, San Diego macht mathematisches Denken in Sprachmodellen effizienter, indem sie den Rechenaufwand deutlich senkt und zugleich die Genauigkeit erhöht.

Sogenannte Reasoning-Sprachmodelle versuchen schwierige Aufgaben zu lösen, indem sie mehrere mögliche Lösungswege erzeugen und sich am Ende für die Antwort entscheiden, die am häufigsten vorkommt – ähnlich einer Abstimmung, bei der die Mehrheitsantwort gewinnt. Das Problem dabei: Alle Pfade werden gleich behandelt – auch fehlerhafte. So kann ein schlechter, aber häufiger Lösungsweg dominieren. Gleichzeitig steigt mit jedem zusätzlich generierten Pfad der Rechenaufwand, ohne dass die Antwort dadurch zwingend besser wird.

Wie Modelle ihre eigene Unsicherheit verraten

DeepConf begegnet diesem Problem, indem es analysiert, wie sicher ein Sprachmodell bei seinen Vorhersagen ist. Wenn ein Modell das nächste Wort mit hoher Wahrscheinlichkeit vorhersagt, deutet das auf Vertrauen in den jeweiligen Lösungsweg hin. Bei Unsicherheit verteilt sich die Wahrscheinlichkeit auf viele mögliche Wörter.

Diese Verteilung lässt sich messen: Je stärker sich die Wahrscheinlichkeiten auf wenige Optionen konzentrieren, desto höher ist das Vertrauen des Modells – und umgekehrt. Die Forschenden zeigen, dass Lösungswege mit höherem durchschnittlichem Vertrauen deutlich häufiger zu korrekten Ergebnissen führen.

Eine Grafik, die in zwei Teile geteilt ist. Links werden verschiedene Methoden zur Berechnung von Konfidenz in Texten erklärt, wie — Links werden die verschiedenen Metriken visualisiert, die entweder den gesamten Text oder nur kritische, lokale Abschnitte wie den Schluss bewerten. Rechts wird der zweistufige Abstimmungsprozess gezeigt: Zuerst werden die Lösungswege mit der niedrigsten Confidence herausgefiltert, anschließend wird die finale Antwort durch eine gewichtete Abstimmung der verbleibenden, hochwertigen Kandidaten ermittelt. | Bild: Fu et al.

Frühere Methoden bewerteten meist nur den Durchschnitt über die gesamte Reasoning-Kette. DeepConf geht gezielter vor und analysiert einzelne Abschnitte. Besonders schwache Teilstücke oder fehleranfällige Enden des Lösungswegs lassen sich so besser erkennen und aussortieren.

Zwei Betriebsmodi für verschiedene Anwendungen

DeepConf kann in zwei Modi arbeiten. Im Offline-Modus werden alle Reasoning-Pfade vollständig generiert und erst danach analysiert. Lösungswege mit geringer Qualität werden bei der finalen Antwortfindung schwächer gewichtet oder ausgeschlossen.

Der Online-Modus ist effizienter: Hier bewertet das System die Qualität während der Generierung und bricht einen Lösungsweg sofort ab, sobald sein Vertrauenswert unter einen zuvor bestimmten Schwellenwert fällt. Dieser wird anhand von 16 Referenzpfaden berechnet. Zwei Varianten stehen zur Verfügung: eine aggressive, die nur die besten zehn Prozent der Referenzpfade als Maßstab nimmt, und eine konservative, die sich an den besten 90 Prozent orientiert.

Ein Flussdiagramm, das den Online-Modus von DeepConf illustriert. Mehrere Lösungswege werden generiert, aber einige werden mit einem roten Stoppschild markiert und abgebrochen, weil ihre Konfidenz unter einen Schwellenwert fällt. Dies spart die vollständige Generierung von qualitativ schlechten Lösungswegen. — Bei Phrasen, die auf Unsicherheit oder Selbstkorrektur hindeuten – wie "Wait, let me double check" –, sinkt der berechnete Konfidenzwert. Fällt er unter einen Schwellenwert (s), bricht das System den aussichtslosen Versuch sofort ab, anstatt ihn zu Ende zu führen. | Bild: Fu et al.

Die Forschenden testeten DeepConf mit fünf Open-Source-Modellen unterschiedlicher Größe: von Deepseek-R1-8B mit acht Milliarden bis gpt-oss-120B mit 120 Milliarden Parametern. Die Tests umfassten anspruchsvolle mathematische Wettbewerbe wie AIME24/25, HMMT25 und BRUMO25 sowie wissenschaftliche Reasoning-Aufgaben.

Bei gpt-oss-120B auf AIME 2025 erreichte DeepConf im Offline-Modus eine herausragende Genauigkeit von 99,9 Prozent. Im besonders effizienten Online-Modus erzielte die Methode eine Genauigkeit von 97,9 Prozent und reduzierte den Token-Verbrauch dabei um 84,7 Prozent im Vergleich zum Standard-Majority-Voting.

Vier Liniendiagramme, die die Genauigkeit (Y-Achse) gegen den Token-Verbrauch (X-Achse) für vier verschiedene Benchmarks auftragen. In jedem Diagramm erreichen die beiden grünen Linien für die DeepConf-Methoden eine hohe Genauigkeit bei deutlich geringerem Token-Verbrauch als die braune Linie der Standard-Abstimmung. Die grünen Kurven befinden sich daher im vorteilhaften oberen linken Bereich der Graphen. — Diese Kurven zeigen den direkten Zusammenhang zwischen Genauigkeit und Rechenaufwand. Die DeepConf-Methoden (grün) erreichen ihr Genauigkeitsmaximum bei einem Bruchteil des Token-Verbrauchs, den die Standard-Abstimmung (braun) benötigt, und sind somit durchweg überlegen. | Bild: Fu et al.

Alle Experimente wurden 64 Mal wiederholt, um statistische Verlässlichkeit sicherzustellen. Dabei zeigte sich: Die aggressive Variante reduzierte den Token-Verbrauch bei mathematischen Aufgaben um bis zu 84,7 Prozent, die konservative Variante sparte bis zu 59 Prozent – bei meist gleichbleibender oder sogar verbesserter Genauigkeit. Die Reduktion bezieht sich auf alle während der Tests generierten Tokens – also auch auf solche, die durch frühzeitiges Abbrechen gar nicht erst vollständig erzeugt wurden.

Ein weiterer Vorteil: DeepConf benötigt kein zusätzliches Training und lässt sich mit wenigen Codezeilen in bestehende Systeme wie vLLM integrieren.

Grenzen und Perspektive

Allerdings zeigt die Methode Schwächen, wenn ein Modell bei einer falschen Antwort sehr überzeugt ist. In solchen Fällen kann es passieren, dass fehlerhafte Pfade nicht aussortiert werden – insbesondere bei der aggressiven Einstellung. Die Forschenden empfehlen hier die konservative Variante, die stabilere Ergebnisse liefert, auch wenn sie etwas weniger effizient ist. Den Code veröffentlichte das Team auf GitHub.

Reasoning-Modelle haben sich als Standard für verlässlichere KI-Antworten etabliert. OpenAI etwa leitet komplexere Anfragen über sein Routing-System in GPT‑5 im Optimalfall automatisch in den ressourcenintensiveren "Thinking"-Modus – in der Praxis funktioniert dieses Umschalten jedoch bislang nicht zuverlässig.

Ob sich die Investition in solche "denkenden" Modelle langfristig lohnt, wird zudem von mehreren Studien und neuen Analysen infrage gestellt – auch angesichts der steigenden Energiekosten. Auch betriebswirtschaftlich müssen sich solche Systeme erst noch beweisen. Methoden wie DeepConf, die mit weniger Rechenaufwand vergleichbare oder bessere Ergebnisse liefern, könnten daher eine zentrale Rolle in der Weiterentwicklung von Sprachmodellen spielen.

Quelle: Arxiv