OpenAI entwickelt angeblich zwei Arten von KI-Agenten zur Automatisierung komplexer Aufgaben.
Laut The Information könnte eine Art von Agent das Gerät eines Benutzers übernehmen, um Aufgaben wie das Übertragen von Daten zwischen Dokumenten und Tabellenkalkulationen oder das Ausfüllen von Spesenabrechnungen zu erledigen. Der Agent übernimmt alle Klicks oder füllt Formulare automatisch aus.
Der zweite Typ von KI-Agenten ist auf das Web ausgerichtet: Er soll webbasierte Aufgaben wie das Sammeln öffentlicher Daten, das Erstellen von Reiserouten oder das Buchen von Flugtickets übernehmen.
Dies passt zu früheren Gerüchten, dass OpenAI plant, ChatGPT in einen "superintelligenten persönlichen Assistenten für die Arbeit" zu verwandeln.
Dieser erweiterte KI-Assistent könnte über ein tiefgreifendes Wissen über einzelne Mitarbeiter und ihre Arbeitsplätze verfügen und persönliche Assistenzaufgaben wie das Verfassen von E-Mails oder Dokumenten im individuellen Stil des Mitarbeiters und unter Einbeziehung der neuesten Geschäftsdaten ausführen.
Nicht bekannt ist, ob der erweiterte KI-Assistent als eigenständiges Produkt oder als Teil einer umfassenderen Software-Suite verkauft werden soll.
Schritt für Schritt zur Allzweck-KI
OpenAI hat kürzlich die Möglichkeit eingeführt, die Fähigkeiten verschiedener ChatGPTs zu kombinieren. Diese Funktion ist ein Schritt in Richtung des Ziels von OpenAI, ChatGPT zu einem personalisierten, individuellen und gleichzeitig universellen Assistenten zu machen.
Der nächste Schritt wäre, dass das zugrundeliegende Modell automatisch lernt, welcher GPT auf welche Anfrage antworten soll. Die kürzlich vorgestellte Assistants API geht in eine ähnliche Richtung.
Auch Google-Chef Sundar Pichai sprach kürzlich davon, dass sich der Chatbot Bard in Richtung eines Assistenten entwickeln und in Zukunft Aktionen für den Nutzer ausführen werde, anstatt nur zu antworten.
Auch Start-ups wie Adept und Imbue arbeiten an solchen KI-Agenten, die etwa Webbrowser bedienen können. Auch das Start-up rabbit, das rund um die CES 2024 gehypt wurde, arbeitet mit einem handlungsoptimierten Sprachmodell (Large Action Model, LAM), das auf Benutzeranforderung Aktionen auf eigentlich für Menschen konzipierten Schnittstellen ausführen kann.