Das Start-up Adept arbeitet an einer universellen Textsteuerung für Computersoftware. Das Ziel: Eines Tages steuern wir Computer nur noch per Sprache.
Im April 2022 stellte sich Adept AI Labs erstmals der Weltöffentlichkeit vor: Das Start-up ist mit rund 65 Millionen US-Dollar finanziert und hat einige ehemalige Forschende von Deepmind, Meta und Google im Team, die seit circa Dezember 2021 zusammenarbeiten.
Adept-Mitgründer Ashish Vaswani schrieb als leitender Autor das Forschungspapier über Transformer, ein neuronales Netz mit einem speziellen Aufmerksamkeitsmechanismus, der Grundstein für viele KI-Fortschritte in der Computerlinguistik der letzten Jahre war.
Das Ziel von Adept ist die Entwicklung eines KI-Assistenten, der mit und für Menschen am Computer arbeitet und durch menschliches Feedback lernt. Die natürliche Sprachverarbeitung dient als Interface, um laut des Start-ups eines Tages jede erdenkliche Software durch Sprachbefehle zu bedienen.
ACT-1: Universal-Transformer für Software-Sprachsteuerung
Jetzt zeigt das Start-up eine erste Demo: Adept kündigt das Transformer-basierte KI-Modell ACT-1 selbstbewusst als "KI-Modell der nächsten Generation an", das "in der digitalen Welt aktiv" werden kann.
"Wir glauben, dass die klarste Vorstellung von genereller Intelligenz ein System ist, das alles tun kann, was ein Mensch vor einem Computer tun kann", schreibt das Team. Die nächste Computer-Ära würde durch direkte Spracheingabe bestimmt, anstatt Aktionen selbst per Hand auszuführen.
Für eine Demo trainierte Adept ACT-1 so, dass es einen herkömmlichen Browser anhand von Texteingaben bedienen kann. Das Modell ist über eine Chrome-Erweiterung integriert. Das folgende Video zeigt, wie es anhand einer Textaufforderung eine Immobilienseite durchsucht. Die Aufforderung: "Finde ein Haus in Houston für meine Familie mit vier Personen. Mein Budget ist 600k." Die KI bedient die Webseite, wie es wohl auch ein Mensch tun würde.
1/7 We built a new model! It’s called Action Transformer (ACT-1) and we taught it to use a bunch of software tools. In this first video, the user simply types a high-level request and ACT-1 does the rest. Read on to see more examples ⬇️ pic.twitter.com/mq7c0Vyd7N
— Adept (@AdeptAILabs) September 14, 2022
In weiteren Demos zeigt Adept, wie das KI-Modell Salesforce im Web und Excel bedient oder in der Wikipedia eigenständig nach Antworten auf Fragen recherchiert. Auch die Verknüpfung von Aktionen über Webseiten und Programme hinweg soll möglich sein: So sucht die KI auf Anweisung bei Craigslist einen Kühlschrank unter 1000 US-Dollar heraus und kontaktiert den Verkäufer per Gmail.
4/7 The model can also complete tasks that require composing multiple tools together; most things we do on a computer span multiple programs. In the future, we expect ACT-1 to be even more helpful by asking for clarifications about what we want. pic.twitter.com/fEyFATqcvx
— Adept (@AdeptAILabs) September 14, 2022
Eines der wichtigsten Funktionen von ACT-1 ist, dass das System anhand von menschlichem Feedback lernen und Aktionen verbessern kann. Erst über diesen Mechanismus erlangt es die Flexibilität, die es benötigt, um über viele Aufgaben hinweg ein nützlicher digitaler Assistent zu sein.
Das folgende Video zeigt, wie ACT-1 auf Textaufforderung eine neue Spalte in Excel erstellt, die allerdings einen Fehler enthält. Per Texteingabe gibt der Mensch einen Hinweis auf die korrekte Spaltenfunktion. Die KI übernimmt die Änderung aus dem Text und korrigiert die Spaltenfunktion.
Laut Adept kratzen diese Demos nur an der Oberfläche der Fähigkeiten von Action Transfomern. Das Start-up macht laut eigenen Angaben große Fortschritte hin zu Modellen, die "jede beliebige Aufgabe" am Computer erledigen können.
Sprache als neues Standard-Interface
Adept prognostiziert, dass "in einigen Jahren" die meisten Computerinteraktionen per Sprachbefehl statt per grafischer Benutzeroberfläche ausgeführt werden.
"Wir sagen dem Computer, was er machen soll, und er macht es", schreibt das Start-up. Heutige Eingabemethoden würden dann im Vergleich veraltet wirken.
Das Sprach-Interface ermögliche zudem viel mehr Menschen, Software besser auszureizen, ohne sich zuvor einem Training zu unterziehen. Dokumentationen und Anleitungen würden von KI-Modellen verarbeitet statt von Menschen. Die so hinzugewonnene Effizienz bei der Computerarbeit könne den menschlichen Fortschritt in allen Bereichen beschleunigen.