Ein neuer Ansatz zur KI-gestützten Web-Navigation setzt auf Weltmodelle, um Aktionsfolgen zu simulieren. Durch die Analyse von Zustandsänderungen und die Vorhersage von Auswirkungen erzielt das System eine höhere Erfolgsrate bei verschiedenen Anwendungen.
Forscher:innen der koreanischen Yonsei University haben eine neue Methode für die KI-gestützte Web-Navigation entwickelt. Laut ihrer aktuellen Studie nutzen sie dafür Weltmodelle, die Aktionsfolgen simulieren können.
Die Wissenschaftler:innen untersuchten zunächst die Fähigkeiten großer Sprachmodelle. Dabei zeigte sich, dass selbst neuere Foundation-Modelle bei der Vorhersage von Aktionsfolgen im Schnitt nur eine Genauigkeit von etwa 54 Prozent erreichen.
Interessanterweise bringt es das ältere GPT-4 Turbo in diesem Test sogar auf ein paar Prozentpunkte mehr als GPT-4o, während Claude 3.5 Sonnet "fast so schlecht abschneidet wie zufälliges Raten".
"Dies deutet darauf hin, dass das Weltmodell, also die Fähigkeit, die möglichen Folgen von Handlungen vorherzusehen, bei LLMs fehlt", resümieren sie.
Simulation statt Trial and Error
Das neue System simuliert mögliche Aktionen, bevor sie ausgeführt werden. Dafür entwickelten die Forscher:innen eine Technik namens "transition-focused observation abstraction". Diese konzentriert sich auf die relevanten Zustandsänderungen einer Webseite.
Der Trainingsprozess läuft in drei Hauptschritten ab:
- Zunächst sammelt das System Interaktionsdaten zwischen KI-Agent und Webumgebung. Dafür haben die Forschenden mit GPT-4o-mini Prompts generiert und das System führt die entsprechenden Aktionen durch. Insgesamt haben sie so 14.000 Trainingsbeispiele gesammelt.
- Im zweiten Schritt analysiert das System die Zustandsänderungen der Webseite. Der sogenannte Hungarian-Algorithmus identifiziert dabei systematisch die Unterschiede zwischen aufeinanderfolgenden Zuständen - also welche Elemente aktualisiert, gelöscht oder hinzugefügt wurden.
- Diese technischen Zustandsänderungen werden dann in Beschreibungen in natürlicher Sprache umgewandelt, die sich auf die wesentlichen Änderungen konzentrieren. Dies reduziert die zu verarbeitende Datenmenge von durchschnittlich 4.000 Tokens auf deutlich weniger. Das spart Rechenleistung und API-Kosten.
Das trainierte World Model kann anschließend die wahrscheinlichen Auswirkungen einer Aktion vorhersagen. Während der Anwendung werden für jede mögliche Aktion die Folgen simuliert.
Eine separate Bewertungsfunktion schätzt dann ein, welche der simulierten Zustände am besten zum gewünschten Ziel passen. Die Aktion mit der besten Bewertung wird schließlich ausgewählt.
Verbesserungen schwanken stark je nach Szenario
Diese Methode ist laut der Studie genauer und deutlich effizienter als bisherige Ansätze, die viele Aktionen tatsächlich ausführen müssen. Das System benötigt im Schnitt nur 140,3 Sekunden pro Aufgabe - deutlich weniger als die 748,3 Sekunden vergleichbarer Systeme.
Im WebArena-Benchmark, der Einsatzzwecke wie Online-Shopping, Content-Management-Systeme (CMS) oder Reddit berücksichtigt, erreichte das System eine Erfolgsrate von 16,6 Prozent, verglichen mit einem Ausgangswert von 12,8 Prozent.
Die Verbesserungen fielen je nach Anwendungsbereich unterschiedlich aus: Bei der Navigation auf GitLab-Seiten stieg die Erfolgsrate um 181 Prozent, bei Kartendiensten um 92 Prozent. Lediglich im Online-Shopping waren die Fortschritte mit drei Prozent sehr gering.
In einem weiteren Test im Mind2Web-Benchmark, der über 2.000 Aufgaben auf 137 verschiedenen Websites umfasst, erreichte das System mit 25,4 Prozent eine neue Bestmarke bei der korrekten Ausführung von Aufgaben.
System hat noch Schwächen
Die Wissenschaftler:innen benennen auch die Einschränkungen ihrer Methode: Bei der Verarbeitung visueller Informationen und der Planung mehrerer Schritte gibt es noch Defizite. Diese sollen in weiteren Forschungsarbeiten adressiert werden.
Eine effiziente Navigation durch Webseiten wird bei der Durchsetzung von Agenten-Systemen mutmaßlich eine zentrale Rolle spielen. Hier hatte Anthropic kürzlich mit "Claude Computer Use" für Aufsehen gesorgt. Auch Google will mit "Project Jarvis" die Browsernutzung durch große Sprachmodelle automatisieren.