Anzeige
Skip to content

Qualcomm will Reasoning-KI auf Smartphones bringen

Image description
Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Qualcomm AI Research hat ein modulares System entwickelt, das Reasoning-fähige Sprachmodelle direkt auf Smartphones bringen soll, ohne auf die Cloud angewiesen zu sein.
  • Die wortreichen Denkprozesse solcher Modelle verbrauchen zu viel Speicher und Energie. Per Reinforcement Learning werden die Antworten massiv gekürzt, ohne dass die Genauigkeit spürbar leidet.
  • Bislang bleibt lokale KI auf Smartphones aber vor allem eine technische Demo. Für echte Systemintegration mit Zugriff auf Mails, Fotos oder Kalender setzen Anbieter wie Google weiterhin auf Cloud-Modelle.

Qualcomm AI Research hat ein modulares System entwickelt, das Reasoning-fähige Sprachmodelle auf Smartphones bringen soll. Dafür werden die wortreichen Denkprozesse der Modelle um den Faktor 2,4 komprimiert.

Die langen Denkprotokolle aktueller Reasoning-Modelle sind auf mobilen Geräten ein grundsätzliches Problem: Sie erzeugen Unmengen an Tokens, blähen den Speicherbedarf auf und treiben den Energieverbrauch in die Höhe. Das neue Framework soll diese Modelle trotzdem auf Smartphones lauffähig machen.

Die Anwendungsfälle, die das Unternehmen im Blick hat, reichen laut dem Paper von intelligenten persönlichen Assistenten, die mehrstufige Aufgaben planen und eigenständig über Apps hinweg agieren, bis hin zur direkten Interaktion mit Geräte-Oberflächen und externen Diensten. Hinzu kommen strukturelle Vorteile: sensible Daten bleiben auf dem Gerät, die Latenz sinkt, und das System funktioniert auch ohne Internetverbindung.

Ein Basismodell, zwei Modi

Statt ein komplett neues Modell zu trainieren, setzt Qualcomm auf einen modularen Ansatz. Ausgangspunkt ist ein normales Sprachmodell ohne Reasoning-Fähigkeiten (Qwen2.5-7B-Instruct). Dieses wird über sogenannte LoRA-Adapter erweitert: kleine, spezialisierte Zusatzmodule, die bei Bedarf aktiviert oder deaktiviert werden können. Dasselbe Modell kann so wahlweise als schneller Chatbot oder als Reasoning-System arbeiten.

Anzeige
DEC_D_Incontent-1

Schematische Darstellung des Qualcomm-Frameworks mit drei Teilen: links die Modellarchitektur mit Transformer-Blöcken, Switcher-Klassifikator und LoRA-Adaptern; rechts oben ein Diagramm zur parallelen Generierung mehrerer Lösungspfade mit Verification Head; rechts unten die End-to-end-Pipeline mit den Stufen Training, Quantisierung, Modell-Export und On-Device-Deployment.
Links die modulare Architektur mit Switcher und LoRA-Adaptern, rechts oben die parallele Reasoning-Strategie, rechts unten die Pipeline von Training bis zur Ausführung auf dem Gerät.

Laut den Forschern müssen dafür nur rund 4 Prozent der Parameter trainiert werden. Trotzdem erreicht das Ergebnis annähernd die Leistung von DeepSeek-R1-Distill-Qwen-7B, einem Modell, das mit deutlich höherem Aufwand trainiert wurde. Ein integrierter Klassifikator entscheidet automatisch für jede Anfrage, ob das aufwändigere Reasoning überhaupt nötig ist, und spart so bei einfachen Fragen Rechenzeit und Energie.

Gezielte Textkompression per Reinforcement Learning

Das größte Problem nach dem initialen Training: Die Modelle werden extrem wortreich. Sie finden oft früh die richtige Lösung, verbringen dann aber Tausende von Tokens damit, ihr eigenes Ergebnis auf verschiedene Arten zu überprüfen. Die Forscher bezeichnen dieses Phänomen als "epistemic hesitation". In vorheriger Forschung ist die übergeordnete Problematik schon länger als "Overthinking" bekannt.

Dagegen setzt das Team Reinforcement Learning ein, das überlange Antworten gezielt bestraft. Die Antworten werden im Schnitt um den Faktor 2,4 kürzer, bei einzelnen Aufgaben sogar um den Faktor 8. Ein Beispiel aus dem Paper: Eine algebraische Vereinfachungsaufgabe, für die das Ausgangsmodell 3.118 Tokens benötigt, löst das optimierte Modell in 810 Tokens. Die Genauigkeit bleibt dabei laut den Forschern weitgehend erhalten.

Vergleich zweier Modellantworten auf dieselbe algebraische Aufgabe. Die obere Baseline-Antwort umfasst 3.118 Tokens mit rot hervorgehobenen redundanten Passagen, in denen das Modell sein Ergebnis mehrfach auf verschiedene Arten überprüft. Die untere budget-optimierte Antwort löst dieselbe Aufgabe in 810 Tokens geradlinig und ohne Wiederholungen.
Oben die Aufgabe, in der Mitte die Baseline-Antwort mit 3.118 Tokens und zahlreichen redundanten Verifikationsschleifen (rot markiert), unten die budget-optimierte Antwort mit 810 Tokens. Beide kommen zum selben Ergebnis.

Ein erster Ansatz für die Längenbeschränkung scheiterte allerdings: Das Modell lernte, seinen Denkblock formal abzuschließen und die ausschweifenden Überlegungen im regulären Antwortteil fortzusetzen. Erst eine angepasste Belohnungsfunktion, die die gesamte Antwortlänge berücksichtigt, unterband dieses Verhalten.

Anzeige
DEC_D_Incontent-2

Parallele Lösungswege und 4-Bit-Kompression

Zusätzlich lässt das Framework das Modell mehrere Lösungswege parallel verfolgen. Ein kleiner Bewertungskopf auf dem Basismodell schätzt ein, welche Antwort am wahrscheinlichsten korrekt ist. Bei acht parallelen Durchläufen steigt die Genauigkeit auf dem Mathe-Benchmark MATH500 laut dem Paper um rund 10 Prozent, ohne die Antwortzeit wesentlich zu verlängern. Der Grund: Die Token-Generierung auf Mobilgeräten ist ohnehin durch den Speicherzugriff begrenzt, nicht durch die Rechenleistung. Die parallelen Pfade nutzen so vorhandene, aber brachliegende Kapazitäten.

Zwei Diagramme nebeneinander. Links eine kumulative Verteilungsfunktion der Antwortlängen: Die grüne Kurve des RL-optimierten Modells steigt deutlich steiler an als die rote Baseline-Kurve, bei 82,7 Prozent vs. 88,3 Prozent Genauigkeit. Rechts ein Histogramm der Längenreduktion pro Aufgabe mit einer Verteilung zwischen 1x und 8x und einem Mittelwert bei etwa 2,4x.
Links: Das per Reinforcement Learning optimierte Modell (grün) erzeugt deutlich kürzere Antworten als die Baseline (rot), bei sogar leicht höherer Genauigkeit. Rechts: Die Verteilung der Längenreduktion pro Aufgabe mit einem Durchschnitt von 2,4x.

Für die eigentliche Smartphone-Tauglichkeit komprimiert Qualcomm die Modellgewichte auf 4 Bit. Die Reasoning-Adapter müssen dabei direkt auf dem komprimierten Modell trainiert werden, andernfalls produziert das System laut dem Paper nur Zufallstext. Das finale Modell liegt den Ergebnissen zufolge nur rund 2 Prozent unter der Genauigkeit der unkomprimierten Variante. Videos auf der Projektseite zeigen das System im Betrieb auf Mobilgeräten.

Lokale KI auf dem Smartphone bleibt bislang eine Demo

Qualcomm arbeitet bereits seit Jahren daran, KI-Modelle auf mobile Geräte zu bringen. Das Unternehmen hat unter anderem 80 voroptimierte KI-Modelle für Snapdragon-Geräte veröffentlicht und einen KI-Orchestrator vorgestellt, der als Vermittler zwischen persönlichen Daten, Apps und KI-Modellen auf dem Gerät fungieren soll. Auch Google zeigte mit FunctionGemma und der AI Edge Gallery, wie sich kleine Sprachmodelle lokal auf Android-Geräten einsetzen lassen.

Bislang blieb es bei solchen Demos allerdings weitgehend bei technischen Machbarkeitsnachweisen. Für die tiefe Systemintegration, bei der ein KI-Assistent auf E-Mails, Fotos und Kalender zugreift, setzen Anbieter wie Google stattdessen auf Cloud-Modelle: Die kürzlich vorgestellte Funktion "Personal Intelligence" verbindet Gemini mit Gmail, Google Fotos und der Suche, läuft aber serverseitig.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv