Inhalt
summary Zusammenfassung

Eine neue KI-Generation soll den Sprung von der Sprache zur Handlung schaffen. Microsoft zeigt mit einem ersten "Large Action Model", wie KI-Systeme Windows-Programme selbstständig bedienen können.

Anzeige

Microsoft stellt in einem neuen Forschungspapier eine neue Klasse von KI-Modellen vor, die nicht nur Text verstehen und generieren, sondern auch konkrete Aktionen in der realen oder digitalen Welt ausführen können.

Diese sogenannten "Large Action Models" (LAMs) markieren laut den Forschern einen wichtigen Schritt in Richtung allgemeiner künstlicher Intelligenz (AGI). Das Konzept und der Name sind nicht neu – es ist aber das erste Modell, das speziell für ein Microsoft Office Produkt trainiert wurde.

Während herkömmliche Large Language Models (LLMs) wie GPT-4o primär auf Sprachverarbeitung und Textgenerierung ausgelegt sind, können LAMs nach Angaben der Microsoft-Forscher Benutzeranfragen in ausführbare Aktionen übersetzen - etwa das Bedienen von Software oder die Steuerung von Robotern.

Anzeige
Anzeige
Vergleichsdiagramm: LLM gibt Textanweisungen aus, LAM führt aktiv Schritte zum Jacketkauf auf Shopping-Website durch, mit Screenshots der Aktionen.
Der fundamentale Unterschied zwischen Sprachmodellen (LLMs) und Handlungsmodellen (LAMs) wird am Beispiel eines Online-Einkaufs deutlich. Während LLMs nur Anweisungen ausgeben können, führt das LAM die Schritte zur Produktsuche selbstständig in der Benutzeroberfläche aus. | Bild: Microsoft

Ein entscheidender Unterschied zu LLMs ist laut dem Paper die Fähigkeit der LAMs, Benutzerabsichten präzise zu interpretieren und in konkrete Handlungsschritte zu übersetzen. Die Modelle können aus verschiedenen Eingabeformen wie Text, Sprache oder Bildern die zugrundeliegende Intention erkennen.

LAMs generieren dann detaillierte Aktionspläne und führen diese in der jeweiligen Umgebung aus. Dabei passen sie ihr Verhalten dynamisch an Veränderungen und Feedback an.

Komplexes Training erfordert neue Daten

Die Entwicklung eines LAM erfolgt nach Angaben der Microsoft-Forscher in vier Phasen: Zunächst wird das Modell mit Task-Plan-Daten trainiert, um Aufgaben in logische Schritte zu zerlegen. Dann lernt es von "Experten" wie GPT-4o, diese Pläne in konkrete Aktionen umzusetzen.

In der dritten Phase erkundet das Modell selbstständig neue Lösungswege, auch für Aufgaben, an denen die Experten gescheitert sind. Schließlich wird das Verhalten durch Belohnungsmodelle weiter optimiert.

Flussdiagramm: Vierphasige LAM-Trainings-Pipeline mit Task-Plan-Pretraining, Expertenlernen, Self-Boosting und Reward-Model-Training.
Die vierphasige LAM-Trainings-Pipeline kombiniert Task-Plan-Vortraining, Expertenlernen, selbstverstärkendes Erkunden und Belohnungsmodell-basierte Optimierung. | Bild: Microsoft

Als Testfall haben die Microsoft-Forscher ein LAM auf Basis von Mistral-7B entwickelt, das in einer Word-Testumgebung zum Einsatz kam. In Tests erreichte das Modell eine Erfolgsrate von 71 Prozent bei der Ausführung verschiedener Aufgaben - und war dabei deutlich schneller als GPT-4o (63 Prozent ohne visuelle Informationen) bei vergleichbaren Aufgaben.

Empfehlung

Das System benötigte im Durchschnitt nur 30 Sekunden pro Aufgabe, während GPT-4o über 86 Sekunden brauchte. Allerdings war GPT-4o mit 75,5 Prozent erfolgreicher bei der korrekten Aufgabenerfüllung, wenn es zusätzlich visuelle Informationen erhielt.

Für das Training des LAMs nutzten die Microsoft-Forscher nach eigenen Angaben zunächst mehr als 29.000 Aufgaben-Plan-Paare aus Microsoft-Dokumentationen, wikiHow-Artikeln und Bing-Suchanfragen. Um den Trainingsdatensatz auf über 76.000 Paare zu erweitern, setzten die Microsoft-Forscher GPT-4o ein.

Prozessdiagramm: LAM-Entwicklungspipeline mit 5 Phasen - Datenvorbereitung, Modelltraining, Integration, Ausführung und Evaluation.
Die LAM-Entwicklungspipeline integriert Datenvorbereitung, Modelltraining und praktische Implementierung in einem durchgängigen Prozess. Der Agent verbindet das trainierte LAM mit konkreten Aktionen in der Windows-Umgebung und ermöglicht durch Feedback kontinuierliche Verbesserungen. | Bild: Microsoft

Das Sprachmodell wurde so konfiguriert, dass es aus einfachen Aufgaben komplexere Varianten entwickelte - zum Beispiel wurde aus der Aufgabe "Erstelle eine Dropdown-Liste" die anspruchsvollere Aufgabe "Erstelle eine abhängige Dropdown-Liste, bei der die erste Auswahl die Optionen der zweiten Liste filtert".

Durch diesen als "Data Evolving" bezeichneten Prozess konnte der ursprüngliche Datensatz um 150 Prozent erweitert werden. Für das konkrete Aktionstraining wurden gut 2.000 erfolgreiche Aktionssequenzen verwendet.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Noch viele Herausforderungen zu meistern

Die Microsoft-Forscher räumen ein, dass die Technologie noch am Anfang steht. Zu den größten Herausforderungen gehören Sicherheitsrisiken durch falsch ausgeführte Aktionen sowie ethische und regulatorische Fragen. Auch die Skalierbarkeit und Übertragbarkeit auf neue Anwendungen sei noch eingeschränkt.

Die Wissenschaftler sehen jedoch großes Potenzial in LAMs, um KI-Systeme von passiven Sprachmodellen zu aktiven Assistenten weiterzuentwickeln, die Menschen bei realen Aufgaben unterstützen können.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft stellt in einem Forschungspapier "Large Action Models" (LAMs) vor, die Text verstehen und generieren und zudem konkrete Aktionen ausführen können.
  • LAMs werden in vier Phasen entwickelt: Training mit Task-Plan-Daten, Lernen von "Experten" wie GPT-4o, selbstständiges Erkunden neuer Lösungswege und Optimierung durch Belohnungsmodelle.
  • Ein auf Mistral-7B basierendes LAM erreichte bei Tests mit Word eine Erfolgsrate von 71 Prozent und war deutlich schneller als GPT-4o ohne visuelle Informationen. Allerdings gibt es noch Herausforderungen wie Sicherheitsrisiken, ethische Fragen und eingeschränkte Skalierbarkeit.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!