Inhalt
summary Zusammenfassung

Apple hat eine neue Version seiner KI für Benutzeroberflächen vorgestellt. Ferret-UI 2 versteht Bildschirminhalte auf verschiedenen Plattformen und kann mit ihnen interagieren.

Anzeige

Laut der von Apple veröffentlichten Forschungsarbeit kann das System Bildschirminhalte auf iPhone, iPad, Android, Web und Apple TV plattformübergreifend verstehen und mit ihnen interagieren.

Das System wurde mit verschiedenen KI-Sprachmodellen getestet. Am besten schnitt Llama-3 ab, aber auch das kompakte Gemma-2B zeigte bereits gute Leistungen. Bei der Erkennung und Interpretation von UI-Elementen erreicht Ferret-UI 2 laut Apple einen Score von bis zu 89,73, während das größere Cloud-Modell GPT-4o nur 77,73 erreicht. Außerdem übertrifft es seinen Vorgänger bei allen elementaren Aufgaben wie der Erkennung von Texten und Schaltflächen und auch bei komplexeren Aufgaben deutlich.

Vergleichstabelle: Benchmark-Ergebnisse verschiedener UI-Modelle mit unterschiedlichen Backbones, zeigt Leistungswerte für elementare und fortgeschrittene Aufgaben.
Die Leistungsvergleichstabelle zeigt deutliche Fortschritte der Ferret-UI 2 Modelle gegenüber dem Vorgänger. Besonders mit dem Llama3-8B Backbone werden Spitzenwerte bei elementaren und fortgeschrittenen Aufgaben erreicht. | Bild: Apple

Besseres Training durch KI-gestützte Datengenerierung

Eine wichtige Neuerung betrifft die Trainingsdaten: Die Apple-Forscher nutzten die visuellen Fähigkeiten von GPT-4o, um qualitativ hochwertige Trainingsdaten zu erzeugen. Dadurch kann das System laut des Teams die räumlichen Beziehungen zwischen den Elementen der Benutzeroberfläche besser verstehen.

Anzeige
Anzeige

Statt mechanischer Klickanweisungen mit X/Y-Koordinaten wolle man so ein System entwickeln, das die Intentionen des Nutzers versteht, erklärt das Forscherteam in der Veröffentlichung. Bei der Aufforderung "Bitte bestätigen Sie die Eingabe" soll das System beispielsweise in der Lage sein, selbstständig die richtige Schaltfläche zu identifizieren.

Darüber hinaus haben die Apple-Forscher das System mit einer flexiblen Architektur ausgestattet, die eine präzise und flexible Erkennung von UI-Elementen auf verschiedenen Plattformen ermöglicht.

Vier UI-Screenshots mit Konversationsbeispielen: iPhone Einstellungen, iPad Wetter-App, MacBook Produktseite und Apple TV Interface mit Modell-Antworten.
Die Transferleistung von Ferret-UI 2 zeigt ein differenziertes Bild: Während die Analyse innerhalb ähnlicher Geräteklassen (Mobil oder Desktop) exzellent funktioniert, offenbart der Wechsel zwischen verschiedenen Formfaktoren noch Optimierungspotenzial. | Bild: Apple

Ein spezieller Algorithmus passt dabei die Bildauflösung automatisch an die jeweilige Plattform an und findet dabei die beste Balance zwischen Bildverzerrung und Rechenaufwand. Die Forscher geben an, dass diese Methode "sowohl informationserhaltend als auch effizient für die lokale Kodierung" sei.

Ein nur mit iPhone-Daten trainiertes Modell erreichte nach Angaben der Forscher auch auf iPad (68 Prozent) und Android (71 Prozent) gute Ergebnisse. Auch der umgekehrte Weg funktioniert. Zwischen Mobilgeräten und TV- und Web-Systemen funktioniert die Übertragung allerdings weniger gut. Die Apple-Forscher führen dies auf die unterschiedlichen Bildschirmformate und Inhalte zurück.

Wettlauf um bessere KI-Agenten mit UI-Verständnis: Neues Open-Source-Modell von Microsoft

Apple steht im Wettbewerb um bessere UI-Agenten nicht allein: Anthropic hat kürzlich mit dem neuen Claude 3.5 Sonnet ein KI-Modell vorgestellt, das ebenfalls verbesserte Fähigkeiten zur Bildverarbeitung und UI-Interaktion bietet. Microsoft hat mit OmniParser ein Open-Source-Tool veröffentlicht, das Bildschirminhalte in strukturierte Daten umwandeln kann.

Empfehlung

Die Verbesserung der UI-Erkennung gilt als wichtiger Schritt hin zu KI-Systemen, die selbstständig mit Benutzeroberflächen interagieren können. Solche Systeme könnten in Zukunft komplexe Aufgaben in Anwendungen übernehmen oder Nutzer bei der Navigation unterstützen.

Apples KI-Forschungsabteilung stellt kürzlich das Agenten-Framework CAMPHOR (Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device) vor. CAMPHOR verwendet eine hierarchische Struktur mit spezialisierten Agenten, die von einem übergeordneten Reasoning-Agent koordiniert werden. Dieser zerlegt komplexe Aufgaben in Teilschritte und weist sie den Expertenagenten zu.

In Kombination mit einem System wie Ferret-UI 2 könnte Apple versuchen, ein Spracheingabesystem wie Siri auf Zuruf komplexe Aufgaben analysieren und allein durch einen Sprachbefehl ausführen zu lassen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Apple stellt Ferret-UI 2 vor, ein KI-System, das Bildschirminhalte auf unterschiedlichen Plattformen erkennt und mit Benutzeroberflächen interagieren kann. Solche Systeme gelten als Grundlage für agentische KI.
  • Ein wichtiger Aspekt der Forschung ist die Übertragbarkeit zwischen Systemen, die innerhalb einer Domäne (iPhone zu Android-Phone) gut funktioniert, während die Übertragbarkeit zwischen Domänen (Mobilgerät zu AppleTV) noch verbessert werden muss.
  • Anstatt sich auf umständliche Klick-Anweisungen mit Koordinaten zu verlassen, zielt Ferret-UI 2 darauf ab, natürlichsprachige Befehle wie "Bitte bestätige die Eingabe" zu verstehen und selbstständig den passenden Button zu finden.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!