Anzeige
Skip to content

Microsoft veröffentlicht winziges Modell für lokale KI-Computersteuerung

Image description
Microsoft

Kurz & Knapp

  • Microsoft hat mit Fara-7B ein kompaktes KI-Modell vorgestellt, das Benutzeroberflächen allein anhand von Screenshots steuert.
  • Das Modell läuft direkt auf Endgeräten, wodurch Latenz und Datenschutz verbessert werden.
  • In Benchmarks schneidet Fara-7B trotz seiner geringen Größe gut ab und übertrifft in einigen Tests sogar größere Modelle wie GPT-4o.

Microsoft stellt mit Fara-7B ein kompaktes KI-Modell vor, das Benutzeroberflächen rein visuell bedienen soll. Das Modell verspricht, trotz geringer Größe mit deutlich komplexeren Systemen mitzuhalten, und läuft lokal auf Endgeräten.

Das Modell basiert auf Alibabas Qwen2.5-VL-7B und nutzt laut Microsoft ausschließlich visuelle Informationen. Es verarbeitet Screenshots der Benutzeroberfläche, ohne auf technische Hilfsmittel wie Accessibility Trees oder HTML-Parsing angewiesen zu sein. In einer Schleife aus Beobachten, Denken und Handeln sagt das Modell Koordinaten für Klicks voraus oder generiert Tastatureingaben. Dabei berücksichtigt es den Verlauf der Aktionen, die letzten drei Screenshots und die Nutzereingaben.

Mit sieben Milliarden Parametern ist Fara-7B klein genug, um direkt auf Geräten ausgeführt zu werden. Microsoft betont, dass dies die Latenz verringere und den Datenschutz verbessere, da Daten lokal verbleiben.

Schema des Ablaufprozesses: Das Modell erhält Screenshots als Kontext, führt eine Aktion aus und erfasst den neuen Status für den nächsten Schritt.
Das Modell arbeitet in einer kontinuierlichen Schleife und nutzt Screenshots der Benutzeroberfläche, um die nächste Aktion zu bestimmen. | Bild: Microsoft

Synthetische Daten ersetzen manuelles Training

Ein Hauptproblem bei der Entwicklung solcher Computer-Use-Agenten ist der Mangel an Trainingsdaten, da die manuelle Aufzeichnung von Klickpfaden durch Menschen extrem aufwendig ist. Microsoft umging dieses Problem durch eine Pipeline für synthetische Daten.

Anzeige
DEC_D_Incontent-1

Flussdiagramm der Datenerzeugung: Aufgaben werden vorgeschlagen, von KI-Agenten gelöst und anschließend auf Qualität geprüft.
Für das Training generiert Microsoft synthetische Daten, indem ein Multi-Agenten-System Aufgaben löst und diese anschließend verifiziert. | Bild: Microsoft

Dabei nutzte das Team das hauseigene Multi-Agenten-Framework Magentic-One, um Aufgaben automatisiert zu lösen. Ein Orchestrator-Agent erstellt Pläne, während ein WebSurfer-Agent die Aktionen ausführt. Die daraus resultierenden erfolgreichen Abläufe – insgesamt rund 145.000 Trajektorien mit einer Million Einzelschritten – dienten dann als Trainingsmaterial, um das Wissen des komplexen Systems in das kompakte Fara-7B zu destillieren.

Zusätzlich führte Microsoft den Benchmark WebTailBench ein, der Aufgaben abdecken soll, die in bisherigen Tests unterrepräsentiert waren, etwa Preisvergleiche oder Jobsuche.

Effizienz soll mit größeren Modellen konkurrieren

In den von Microsoft veröffentlichten Benchmarks zeigt das Modell eine hohe Leistungsfähigkeit im Vergleich zu seiner Größe. Im WebVoyager-Benchmark erreicht Fara-7B eine Erfolgsquote von 73,5 Prozent. Damit liegt es laut den Autoren vor dem UI-TARS-1.5-7B Modell und übertrifft sogar OpenAIs kommerzielles GPT-4o. Eine unabhängige Überprüfung durch die Firma Browserbase mit menschlichen Bewertern ergab eine Erfolgsquote von 62 Prozent.

Tabelle mit Benchmark-Ergebnissen: Fara-7B erreicht in WebVoyager 73,5 Punkte und liegt damit vor OpenAI (70,9) und UI-TARS (66,4). Auch in DeepShop und WebTailBench führt das Modell.
In verschiedenen Benchmarks schneidet Fara-7B im Vergleich zur Konkurrenz gut ab und übertrifft im WebVoyager-Test sogar OpenAIs Computer-Use-Preview. | Bild: Microsoft

Microsoft hebt zudem die Effizienz hervor: Fara-7B benötige für die Lösung von Aufgaben im Schnitt nur etwa 16 Schritte, während vergleichbare Modelle wie UI-TARS rund 41 Schritte bräuchten. Das spiegelt sich beim Einsatz direkt in reduzierten Kosten wider.

Anzeige
DEC_D_Incontent-2

Diagramm zu Genauigkeit vs. Kosten: Fara-7B liegt oben links mit hoher Präzision und niedrigen Kosten, während andere Modelle teurer abschneiden.
Fara-7B (lila) erzielt im WebVoyager-Benchmark eine hohe Genauigkeit bei einem Bruchteil der Kosten anderer Modelle wie GPT-4o. | Bild: Microsoft

Trotz der Ergebnisse weist Microsoft darauf hin, dass das Modell weiterhin Fehler macht, Anweisungen missverstehen kann und zu Halluzinationen neigt. Um Risiken zu minimieren, wurde das Modell darauf trainiert, an sogenannten kritischen Punkten innezuhalten – etwa vor dem Absenden einer E-Mail oder einer finanziellen Transaktion –, um die Zustimmung des Nutzers einzuholen.

Das Modell steht als experimentelles Open-Weight-Release unter MIT-Lizenz auf Hugging Face und Microsoft Foundry zur Verfügung. Zudem lässt sich Fara-7B lokal etwa auf Copilot+ PCs mit Windows 11 testen.

Schon seit einiger Zeit legen KI-Unternehmen wie OpenAI, Anthropic, Google und Manus AI Hoffnung in die KI-gestützte Bedienung von Benutzeroberflächen durch Agenten. Bislang zeigt sich aber: Viele Aufgaben werden ohne echten Effizienzgewinn nur langsam oder überhaupt nicht ausgeführt. Zudem laufen sie Gefahr, durch Risiken wie Prompt-Injections in die Irre geführt zu werden.

Ein Ansatz könnte sein, KI-Agenten nicht nur auf visuelle Informationen zu beschränken, sondern ihnen Schnittstellen zu bieten, die speziell auf ihre Bedürfnisse zugeschnitten sind. Während Forschende bereits an standardisierten Interaktionskonzepten für Agenten arbeiten, könnten solche Ansätze dazu beitragen, die Effizienz und Sicherheit beim Einsatz von KI-Agenten deutlich zu steigern.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Microsoft