Apple entwickelt KI-System für plattformübergreifende App-Steuerung

Apple hat eine neue Version seiner KI für Benutzeroberflächen vorgestellt. Ferret-UI 2 versteht Bildschirminhalte auf verschiedenen Plattformen und kann mit ihnen interagieren.

Laut der von Apple veröffentlichten Forschungsarbeit kann das System Bildschirminhalte auf iPhone, iPad, Android, Web und Apple TV plattformübergreifend verstehen und mit ihnen interagieren.

Das System wurde mit verschiedenen KI-Sprachmodellen getestet. Am besten schnitt Llama-3 ab, aber auch das kompakte Gemma-2B zeigte bereits gute Leistungen. Bei der Erkennung und Interpretation von UI-Elementen erreicht Ferret-UI 2 laut Apple einen Score von bis zu 89,73, während das größere Cloud-Modell GPT-4o nur 77,73 erreicht. Außerdem übertrifft es seinen Vorgänger bei allen elementaren Aufgaben wie der Erkennung von Texten und Schaltflächen und auch bei komplexeren Aufgaben deutlich.

Vergleichstabelle: Benchmark-Ergebnisse verschiedener UI-Modelle mit unterschiedlichen Backbones, zeigt Leistungswerte für elementare und fortgeschrittene Aufgaben. — Die Leistungsvergleichstabelle zeigt deutliche Fortschritte der Ferret-UI 2 Modelle gegenüber dem Vorgänger. Besonders mit dem Llama3-8B Backbone werden Spitzenwerte bei elementaren und fortgeschrittenen Aufgaben erreicht. | Bild: Apple

Besseres Training durch KI-gestützte Datengenerierung

Eine wichtige Neuerung betrifft die Trainingsdaten: Die Apple-Forscher nutzten die visuellen Fähigkeiten von GPT-4o, um qualitativ hochwertige Trainingsdaten zu erzeugen. Dadurch kann das System laut des Teams die räumlichen Beziehungen zwischen den Elementen der Benutzeroberfläche besser verstehen.

Statt mechanischer Klickanweisungen mit X/Y-Koordinaten wolle man so ein System entwickeln, das die Intentionen des Nutzers versteht, erklärt das Forscherteam in der Veröffentlichung. Bei der Aufforderung "Bitte bestätigen Sie die Eingabe" soll das System beispielsweise in der Lage sein, selbstständig die richtige Schaltfläche zu identifizieren.

Darüber hinaus haben die Apple-Forscher das System mit einer flexiblen Architektur ausgestattet, die eine präzise und flexible Erkennung von UI-Elementen auf verschiedenen Plattformen ermöglicht.

Vier UI-Screenshots mit Konversationsbeispielen: iPhone Einstellungen, iPad Wetter-App, MacBook Produktseite und Apple TV Interface mit Modell-Antworten. — Die Transferleistung von Ferret-UI 2 zeigt ein differenziertes Bild: Während die Analyse innerhalb ähnlicher Geräteklassen (Mobil oder Desktop) exzellent funktioniert, offenbart der Wechsel zwischen verschiedenen Formfaktoren noch Optimierungspotenzial. | Bild: Apple

Ein spezieller Algorithmus passt dabei die Bildauflösung automatisch an die jeweilige Plattform an und findet dabei die beste Balance zwischen Bildverzerrung und Rechenaufwand. Die Forscher geben an, dass diese Methode "sowohl informationserhaltend als auch effizient für die lokale Kodierung" sei.

Ein nur mit iPhone-Daten trainiertes Modell erreichte nach Angaben der Forscher auch auf iPad (68 Prozent) und Android (71 Prozent) gute Ergebnisse. Auch der umgekehrte Weg funktioniert. Zwischen Mobilgeräten und TV- und Web-Systemen funktioniert die Übertragung allerdings weniger gut. Die Apple-Forscher führen dies auf die unterschiedlichen Bildschirmformate und Inhalte zurück.

Zwei Ferret-UI-Modelle auf Llama- und Gemma-Basis stehen bei Hugging Face zur Verfügung, ebenso wie eine Demo.

Empfehlung

KI-Forschung

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Wettlauf um bessere KI-Agenten mit UI-Verständnis: Neues Open-Source-Modell von Microsoft

Apple steht im Wettbewerb um bessere UI-Agenten nicht allein: Anthropic hat kürzlich mit dem neuen Claude 3.5 Sonnet ein KI-Modell vorgestellt, das ebenfalls verbesserte Fähigkeiten zur Bildverarbeitung und UI-Interaktion bietet. Microsoft hat mit OmniParser ein Open-Source-Tool veröffentlicht, das Bildschirminhalte in strukturierte Daten umwandeln kann.

Die Verbesserung der UI-Erkennung gilt als wichtiger Schritt hin zu KI-Systemen, die selbstständig mit Benutzeroberflächen interagieren können. Solche Systeme könnten in Zukunft komplexe Aufgaben in Anwendungen übernehmen oder Nutzer bei der Navigation unterstützen.

Apples KI-Forschungsabteilung stellt kürzlich das Agenten-Framework CAMPHOR (Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device) vor. CAMPHOR verwendet eine hierarchische Struktur mit spezialisierten Agenten, die von einem übergeordneten Reasoning-Agent koordiniert werden. Dieser zerlegt komplexe Aufgaben in Teilschritte und weist sie den Expertenagenten zu.

In Kombination mit einem System wie Ferret-UI 2 könnte Apple versuchen, ein Spracheingabesystem wie Siri auf Zuruf komplexe Aufgaben analysieren und allein durch einen Sprachbefehl ausführen zu lassen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Apple entwickelt KI-System für plattformübergreifende App-Steuerung

Besseres Training durch KI-gestützte Datengenerierung

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Wettlauf um bessere KI-Agenten mit UI-Verständnis: Neues Open-Source-Modell von Microsoft

Apple-Paper zu KI-Denkfähigkeit spaltet Experten und entfacht hitzige Debatte

Apple-Forscher äußern grundlegenden Zweifel an "Denkfunktion" von "Reasoning"-LLMs

Kein Fünkchen Verständnis: Apple-Forscher bezweifeln Logik-Fähigkeiten von OpenAI o1

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Apple entwickelt KI-System für plattformübergreifende App-Steuerung

Besseres Training durch KI-gestützte Datengenerierung

Wettlauf um bessere KI-Agenten mit UI-Verständnis: Neues Open-Source-Modell von Microsoft

Artikel teilen

Bankverbindung