Inhalt
summary Zusammenfassung

Sprachmodelle, die Dokumentationen lesen, lernen erfolgreich, Werkzeuge zu benutzen - in einigen Fällen erfinden sie sogar neue Methoden, zeigt eine neue Forschungsarbeit.

Große Sprachmodelle wie ChatGPT können Tools oder APIs rudimentär nutzen. Traditionell werden Sprachmodelle dafür mit einigen Beispielen trainiert, in denen die Tools verwendet werden. Bei komplexeren Tools sind solche Demonstrationen jedoch selten oder fehlen ganz. Ein Team von Forschenden der University of Washington, der National Taiwan University und Google hat eine andere Idee: Einfach die Anleitung lesen - im Internet auch gerne mit RTFM abgekürzt.

Solche Dokumentationen beschreiben genau, was ein Werkzeug tut, zum Beispiel eine API-Dokumentation. Sie sind allgemeiner als eine Demonstration der Verwendung des Tools für eine bestimmte Aufgabe und für die meisten Software-Tools über "Readme"-Daten oder API-Referenzen leicht verfügbar. Das Team ging daher davon aus, dass sie nicht nur besser skalieren, sondern auch bessere Ergebnisse liefern als Demonstrationen, da die Modelle auch auf allgemeinere und flexiblere Weise etwas über die Werkzeuge lernen.

Training mit Anleitung ermöglicht Zero-Shot-Werkzeuggebrauch

Das Team trainierte daher verschiedene Modelle für sechs verschiedene Aufgaben mit Dokumentation und Demonstration und verglich ihre Leistung. Bei ausschließlicher Verwendung von Dokumentationen war die Zero-Shot-Leistung gleich oder besser als die von Modellen, die ausschließlich von Demonstrationen lernten. Nach einer Skalierung auf einen Datensatz von 200 Tool-Anleitungen übertraf das erste Modell dann das zweite deutlich.

Anzeige
Anzeige

Im Bereich der Bildverarbeitung war das Modell in der Lage, komplexe Bildverarbeitungs- und Videoverfolgungsfunktionen ohne weitere Demonstration auszuführen, indem es aus der Dokumentation neuer, hochmoderner Bildverarbeitungsmodule lernte. Als besonders bemerkenswert hebt das Team hervor, dass das Modell mit Ausgangstools und Dokumentationen in der Lage war, kürzlich veröffentlichte Bildverarbeitungstechniken wie Grounded-SAM und Videoverfolgung mit Track Anything zu reproduzieren - dies zeige das Potenzial der Methode für die automatische Wissensentdeckung.

Bild: Hsieh et al.

"Insgesamt zeigen wir eine neue Perspektive der Werkzeugnutzung mit großen Sprachmodelle auf, indem wir uns auf ihre internen Planungs- und Schlussfolgerungsfähigkeiten mit Dokumenten konzentrieren, anstatt ihr Verhalten explizit mit Demos zu steuern", heißt es im Paper.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  •  Sprachmodelle wie ChatGPT können aus Dokumentationen von Tools und APIs lernen, zeigt eine neue Studie.
  • In einem Vergleich führte die ausschließliche Verwendung von Dokumentation zu einer gleichwertigen oder besseren Zero-Shot-Leistung als Modelle, die nur mit Demonstrationen trainiert wurden.
  • Die Verwendung von Anleitungen ermöglichte es den Modellen, komplexe Bildverarbeitungs- und Videoverfolgungsfunktionen zu erlernen und neuere Techniken wie Grounded-SAM und Track Anything zu reproduzieren.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!