Inhalt
summary Zusammenfassung

Ein neuer Ansatz zur KI-gestützten Web-Navigation setzt auf Weltmodelle, um Aktionsfolgen zu simulieren. Durch die Analyse von Zustandsänderungen und die Vorhersage von Auswirkungen erzielt das System eine höhere Erfolgsrate bei verschiedenen Anwendungen.

Anzeige

Forscher:innen der koreanischen Yonsei University haben eine neue Methode für die KI-gestützte Web-Navigation entwickelt. Laut ihrer aktuellen Studie nutzen sie dafür Weltmodelle, die Aktionsfolgen simulieren können.

Die Wissenschaftler:innen untersuchten zunächst die Fähigkeiten großer Sprachmodelle. Dabei zeigte sich, dass selbst neuere Foundation-Modelle bei der Vorhersage von Aktionsfolgen im Schnitt nur eine Genauigkeit von etwa 54 Prozent erreichen.

Interessanterweise bringt es das ältere GPT-4 Turbo in diesem Test sogar auf ein paar Prozentpunkte mehr als GPT-4o, während Claude 3.5 Sonnet "fast so schlecht abschneidet wie zufälliges Raten".

Anzeige
Anzeige

"Dies deutet darauf hin, dass das Weltmodell, also die Fähigkeit, die möglichen Folgen von Handlungen vorherzusehen, bei LLMs fehlt", resümieren sie.

Simulation statt Trial and Error

Das neue System simuliert mögliche Aktionen, bevor sie ausgeführt werden. Dafür entwickelten die Forscher:innen eine Technik namens "transition-focused observation abstraction". Diese konzentriert sich auf die relevanten Zustandsänderungen einer Webseite.

Technisches Diagramm: Zweistufiger KI-Prozess mit Weltmodell-Training und Policy-Optimierung, Chrome-Browser als Umgebung, Flussdiagramm-Darstellung.
Die KI-Architektur kombiniert Weltmodell-Training mit Policy-Optimierung. Das System nutzt Umgebungsbeobachtungen und Aktionsdaten, um präzise Vorhersagen zu treffen und optimale Handlungsstrategien zu entwickeln. | Bild: Chae et al.

Der Trainingsprozess läuft in drei Hauptschritten ab:

  1. Zunächst sammelt das System Interaktionsdaten zwischen KI-Agent und Webumgebung. Dafür haben die Forschenden mit GPT-4o-mini Prompts generiert und das System führt die entsprechenden Aktionen durch. Insgesamt haben sie so 14.000 Trainingsbeispiele gesammelt.
  2. Im zweiten Schritt analysiert das System die Zustandsänderungen der Webseite. Der sogenannte Hungarian-Algorithmus identifiziert dabei systematisch die Unterschiede zwischen aufeinanderfolgenden Zuständen - also welche Elemente aktualisiert, gelöscht oder hinzugefügt wurden.
  3. Diese technischen Zustandsänderungen werden dann in Beschreibungen in natürlicher Sprache umgewandelt, die sich auf die wesentlichen Änderungen konzentrieren. Dies reduziert die zu verarbeitende Datenmenge von durchschnittlich 4.000 Tokens auf deutlich weniger. Das spart Rechenleistung und API-Kosten.

Das trainierte World Model kann anschließend die wahrscheinlichen Auswirkungen einer Aktion vorhersagen. Während der Anwendung werden für jede mögliche Aktion die Folgen simuliert.

Eine separate Bewertungsfunktion schätzt dann ein, welche der simulierten Zustände am besten zum gewünschten Ziel passen. Die Aktion mit der besten Bewertung wird schließlich ausgewählt.

Empfehlung
Technisches Diagramm: Übergangsbasierte Beobachtungsabstraktion mit Elementabgleich, Zustandsübergängen und Vorhersagekomponenten für Navigationssysteme.
Die übergangsorientierten Beobachtungsabstraktion ermöglicht die präzise Analyse von Nutzereingaben in Navigationssystemen. Der Hungarian-Algorithmus vergleicht Elementzustände und extrahiert Zustandsübergänge für präzise Vorhersagen. | Bild: Chae et al.

Verbesserungen schwanken stark je nach Szenario

Diese Methode ist laut der Studie genauer und deutlich effizienter als bisherige Ansätze, die viele Aktionen tatsächlich ausführen müssen. Das System benötigt im Schnitt nur 140,3 Sekunden pro Aufgabe - deutlich weniger als die 748,3 Sekunden vergleichbarer Systeme.

Im WebArena-Benchmark, der Einsatzzwecke wie Online-Shopping, Content-Management-Systeme (CMS) oder Reddit berücksichtigt, erreichte das System eine Erfolgsrate von 16,6 Prozent, verglichen mit einem Ausgangswert von 12,8 Prozent.

Die Verbesserungen fielen je nach Anwendungsbereich unterschiedlich aus: Bei der Navigation auf GitLab-Seiten stieg die Erfolgsrate um 181 Prozent, bei Kartendiensten um 92 Prozent. Lediglich im Online-Shopping waren die Fortschritte mit drei Prozent sehr gering.

Zwei Tabellen: Vergleich der Erfolgsraten verschiedener LLM-Agenten in WebArena, mit und ohne Policy-Optimierung, plus domänenspezifische Leistungsanalyse.
Die Leistungsvergleichstabellen demonstrieren signifikante Verbesserungen durch Policy-Optimierung bei WebArena-Agenten. Besonders beeindruckend sind die domänenspezifischen Steigerungen von bis zu 181 % bei GitLab-Aufgaben. | Bild: Chae et al.

In einem weiteren Test im Mind2Web-Benchmark, der über 2.000 Aufgaben auf 137 verschiedenen Websites umfasst, erreichte das System mit 25,4 Prozent eine neue Bestmarke bei der korrekten Ausführung von Aufgaben.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

System hat noch Schwächen

Die Wissenschaftler:innen benennen auch die Einschränkungen ihrer Methode: Bei der Verarbeitung visueller Informationen und der Planung mehrerer Schritte gibt es noch Defizite. Diese sollen in weiteren Forschungsarbeiten adressiert werden.

Eine effiziente Navigation durch Webseiten wird bei der Durchsetzung von Agenten-Systemen mutmaßlich eine zentrale Rolle spielen. Hier hatte Anthropic kürzlich mit "Claude Computer Use" für Aufsehen gesorgt. Auch Google will mit "Project Jarvis" die Browsernutzung durch große Sprachmodelle automatisieren.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Yonsei University haben eine neue Methode für die KI-gestützte Web-Navigation entwickelt, die sogenannte "World Models" nutzt, um Aktionsfolgen zu simulieren und optimale Handlungsstrategien zu entwickeln.
  • Das System sammelt Interaktionsdaten, analysiert Zustandsänderungen der Webseite mit dem Hungarian-Algorithmus und wandelt diese in natürlichsprachliche Beschreibungen um. Das trainierte World Model kann dann die Auswirkungen einer Aktion vorhersagen und die beste Option auswählen.
  • Im WebArena-Benchmark erreichte das System eine Erfolgsrate von 16,6 Prozent und verbesserte sich je nach Anwendungsbereich unterschiedlich stark. Im Mind2Web-Benchmark erzielte es mit 25,4 Prozent eine neue Bestmarke bei der korrekten Ausführung von Aufgaben, hat aber noch Schwächen bei der Verarbeitung visueller Informationen und der Planung mehrerer Schritte.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!