Anzeige
Skip to content

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

Image description
Fu et al.

Apples KI-Forschungsabteilung hat ein neues KI-Framework namens CAMPHOR vorgestellt. Laut den Entwicklern soll das System komplexe Nutzeranfragen lokal auf Mobilgeräten verarbeiten und dabei die Privatsphäre der Anwender schützen.

CAMPHOR (Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device) nutzt eine hierarchische Struktur mit mehreren spezialisierten Agenten, die von einem übergeordneten Reasoning-Agenten koordiniert werden. Dieser zerlegt komplexe Aufgaben in Teilschritte und weist sie den Experten-Agenten zu.

Illustration: Smartphone-Bildschirm mit App-Icons und Funktionsaufrufen, daneben eine Benutzerfigur mit Sprechblase für Anfragen.
Der CAMPHOR-Datensatz simuliert eine realistische Smartphone-Umgebung mit diversen Funktionen und persönlichen Informationen. Das ermöglicht die Entwicklung und Erprobung von KI-Assistenten, die nahtlos mit verschiedenen Smartphone-Apps und -Diensten interagieren können. | Bild: Fu et al.

Zu den Spezialisten gehören Agenten für persönliche Kontexte, Geräteinformationen, Nutzerwahrnehmung, externes Wissen und Aufgabenausführung. Laut Apple profitiert davon der Datenschutz sowie die Latenz im Vergleich zu serverbasierten Lösungen. Letztere müssen häufig mehrere Anfragen zwischen Server und Gerät austauschen, was die Nutzererfahrung beeinträchtigen kann.

Flussdiagramm: Multi-Agenten-System CAMPHOR mit Device, User, Personal Context, External Knowledge und Task Completion Agenten.
Das CAMPHOR-System demonstriert einen fortschrittlichen Multi-Agenten-Ansatz für KI-gesteuerte Aufgabenbearbeitung. Es integriert verschiedene spezialisierte Agenten, die nahtlos zusammenarbeiten, um komplexe Benutzeranfragen effizient zu verarbeiten und auszuführen. | Bild: Fu et al.

Prompt-Kompression für effiziente Ressourcennutzung

Um die begrenzten Ressourcen von Mobilgeräten optimal zu nutzen, setzt CAMPHOR auf Prompt-Kompression. Dabei werden Funktionsdefinitionen in einzelne Token komprimiert, was den Speicherbedarf drastisch reduziert. Laut der Studie konnte die Anzahl der statischen Prompt-Token für bestimmte Agenten um bis zu 96 Prozent verringert werden.

Anzeige
DEC_D_Incontent-1

Diagramm: SLM-Prompt-Kompression, Funktions- und Prompt-Tokens werden vom SLM verarbeitet und in den Prompt integriert.
Die Prompt-Kompressionstechnik optimiert die Verarbeitung von Funktionsbeschreibungen und Konversationsverläufen. | Bild: Fu et al.

Diese drastische Reduzierung des Speicherbedarfs geht einher mit nur marginalen Änderungen in der Genauigkeit. Der Plan-F1-Wert, ein Maß für die Genauigkeit der Aufgabenerfüllung, sank lediglich von 39,89 Prozent auf 38,45 Prozent.

Überraschenderweise zeigen die Ergebnisse, dass die feinabgestimmten kleinen Sprachmodelle in CAMPHOR die Leistung großer Sprachmodelle bei personalisierten Aufgaben übertreffen können. In Tests erreichten sie eine um bis zu 35 Prozent höhere Punktzahl bei der Aufgabenerfüllung als geschlossene große Sprachmodelle.

Diagramm: SLM-Prompt-Kompression, Funktions- und Prompt-Tokens werden vom SLM verarbeitet und in den Prompt integriert.
Laut Apple können für spezielle Aufgaben feingetunte SLMs größere Cloud-KI-Modelle bei den getesteten Einzelaufgaben übertreffen. | Bild: Fu et al.

Die Forscher räumen ein, dass das aktuelle CAMPHOR-Framework auf Einzelinteraktionen beschränkt ist. Viele reale Aufgaben erfordern jedoch mehrstufige Gespräche zwischen Nutzer und Assistent. Zukünftige Arbeiten sollen sich darauf konzentrieren, CAMPHOR für Mehrfach-Interaktionen zu erweitern und komplexeres Laufzeit-Feedback sowie Fehlerbehandlungslogik zu integrieren.

KI soll das iPhone steuern - und eines Tages noch viel mehr

Hinter Apples CAMPHOR steht die Vision von KI-Agenten, die in natürlicher Sprache mit den Nutzern interagieren und gleichzeitig ihre Umgebung - etwa die Smartphone-Oberfläche - verstehen und mit ihr interagieren können.

Anzeige
DEC_D_Incontent-2

Wenn das Prinzip funktioniert, könnte es auf viele Arbeits- und Lebensbereiche ausgeweitet werden. OpenAI-Chef Sam Altman lässt auch an einer Hardware forschen, die dieses Software-Prinzip ins alltägliche Leben integriert.

OpenAI veröffentlichte zudem kürzlich auf GitHub ein Open-Source-Framework namens "Swarm", ein experimentelles Tool für die Erstellung, Orchestrierung und Bereitstellung von Multi-Agenten-Systemen. Swarm soll die Koordination und Ausführung von Agenten leichtgewichtig, kontrollierbar und einfach testbar machen.

Das wird durch zwei Kernkonzepte erreicht: Routinen, die Anweisungen und Werkzeuge enthalten, und Übergaben, die es Agenten ermöglichen, Gespräche weiterzuleiten. OpenAI betont, dass Swarm derzeit ein experimentelles Beispielframework ist und nicht für den produktiven Einsatz gedacht ist.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Paper

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren