Weshalb Alexa noch immer keine fließenden Dialoge führen kann

Einen Wecker stellen, nach dem Wetter fragen - einfache Befehle versteht Alexa problemlos. Doch darüber hinaus wird es eng. Wieso ist das so?

Verglichen mit großen Sprachmodellen (Large Language Model, LLM) wie GPT-3 sind Sprachassistenzen wie Alexa und Google Assistant ziemlich wortkarg. Echte Gespräche kommen nicht zustande, die Systeme verstehen nur triviale Befehle auf Anhieb und setzen sie in eine Aktion um.

Der aktuelle Stand der Forschung erlaubt bereits Chatbots mit mehr Eloquenz, wieso also nicht auch fortschrittliche Sprachassistenzen? Der KI-Forscher Gary Marcus, Autor des Newsletters The Road to AI We Can Trust, geht in dessen neuster Ausgabe der Sache auf den Grund.

Recht naheliegende Gründe schließt Marcus von vornherein aus. Habe vielleicht niemand bei Amazon die neusten wissenschaftlichen Erkenntnisse verfolgt? Wohl kaum, kämen LLMs schließlich längst für die mächtige Produktempfehlungsmaschine zum Einsatz.

Auch eine mangelnde Investitionsbereitschaft für Lizenzkosten sei unwahrscheinlich, da das Unternehmen mit seinen Amazon Web Services problemlos die Infrastruktur selbst bereitstellen könnte. Zudem habe Amazon ausreichend Erfahrung damit, solche Systeme zu skalieren.

Alexa mit Sprachmodell? Amazon will keine Kontrolle abgeben

Marcus formuliert fünf Gründe, die dazu beitragen, dass Alexa keine Konversationen führen kann (oder eher: darf), obwohl es technisch möglich wäre. Sie laufen letztlich auf einem zentralen Punkt zusammen: LLMs sind noch nicht verlässlich genug für den weitläufigen und automatisierten kommerziellen Einsatz.

LLMs sind laut Marcus unzuverlässig,
sie sind widerspenstig,
Amazon möchte sich nicht angreifbar machen,
Kund:innen sollen keine unerfüllbaren Erwartungen bekommen,
und LLMs sind für Worte, nicht Aktionen gemacht.

Amazon möchte seinen Kund:innen lieber ein Produkt verkaufen, das einen begrenzten Bereich an Aufgaben zuverlässig erledigt. Sprachmodelle hingegen seien unvorhersehbar und lassen sich schlecht kontrollieren, schreibt Marcus.

Zudem kann GPT-3 zwar einen Strang zusammenhängender Wörter generieren, diese aber noch nicht verlässlich mit Aktionen verknüpfen. Daran arbeiten Start-ups wie Adept oder auch Google bei SayCan.

Amazon entlässt Mitarbeitende für KI und Konversation

Derzeit sieht es nicht nach einer sprunghaften Weiterentwicklung bei Alexa aus: Vor wenigen Tagen gab Amazon bekannt, dass es inmitten der Big-Tech-Aktienkurskrise tausende Mitarbeitende entlässt.

Empfehlung

KI in der Praxis

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

Vor allem Personal aus den Bereichen der KI-Systeme, Natural Language Processing (NLP) und der Konversationsfähigkeiten seien betroffen. Das könnte ein Indiz sein, dass Amazon die Bemühungen um Alexa zurückfährt, zumindest derzeit nicht forciert. Allein die Alexa-Hardware-Entwicklung soll Amazon laut eines Medienberichts in diesem Jahr zehn Milliarden US-Dollar Verlust eingebracht haben. Keine andere Sparte bei Amazon verursacht derart hohe Verluste.

Vielleicht macht es Google besser, das in den vergangenen Jahren intensiv im Bereich NLP geforscht hat, und auf den Google Assistant als nächstes Interface setzt. Anfang 2023 soll der Google Assistant natürliche Sprechpausen und andere Stolperfallen beim Verständnis menschlicher Sprachbefehle überwinden können.

Zudem rollt Google derzeit die fortschrittliche Dialog-KI LaMDA in einer Testumgebung aus. LaMDA könnte die Grundlage für einen Next-Gen-Assistant und eine neue Form der Internetsuche sein - vorausgesetzt, Google bekommt die laut Marcus "widerspenstigen" LLMs in den Griff.

Denn dass Google LaMDA nur schrittweise ausrollt und seit Monaten intensiv intern testet, hat unmittelbar mit den von Marcus genannten Kritikpunkten zu tun: Es geht um Sicherheit und Verlässlichkeit. In diesem Kontext spielen etwa Vorurteile, Rassismus oder schwer vorhersehbare Aspekte wie das Vorspielen eines Bewusstseins, auf das der Ex-Google-Mitarbeitende Blake Lemoine hereinfiel, eine Rolle.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weshalb Alexa noch immer keine fließenden Dialoge führen kann

Alexa mit Sprachmodell? Amazon will keine Kontrolle abgeben

Amazon entlässt Mitarbeitende für KI und Konversation

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

OpenAI launcht "ChatGPT Record": Audio aufnehmen, transkribieren, zusammenfassen

RUBICON: Neues Bewertungssystem für KI-Unterhaltungen in der Softwareentwicklung

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Weshalb Alexa noch immer keine fließenden Dialoge führen kann

Alexa mit Sprachmodell? Amazon will keine Kontrolle abgeben

Amazon entlässt Mitarbeitende für KI und Konversation

Artikel teilen

Bankverbindung