Anzeige
Skip to content

Weshalb Alexa noch immer keine fließenden Dialoge führen kann

Image description
Midjourney / DALL-E 2 prompted by THE DECODER

Einen Wecker stellen, nach dem Wetter fragen - einfache Befehle versteht Alexa problemlos. Doch darüber hinaus wird es eng. Wieso ist das so?

Verglichen mit großen Sprachmodellen (Large Language Model, LLM) wie GPT-3 sind Sprachassistenzen wie Alexa und Google Assistant ziemlich wortkarg. Echte Gespräche kommen nicht zustande, die Systeme verstehen nur triviale Befehle auf Anhieb und setzen sie in eine Aktion um.

Der aktuelle Stand der Forschung erlaubt bereits Chatbots mit mehr Eloquenz, wieso also nicht auch fortschrittliche Sprachassistenzen? Der KI-Forscher Gary Marcus, Autor des Newsletters The Road to AI We Can Trust, geht in dessen neuster Ausgabe der Sache auf den Grund.

Recht naheliegende Gründe schließt Marcus von vornherein aus. Habe vielleicht niemand bei Amazon die neusten wissenschaftlichen Erkenntnisse verfolgt? Wohl kaum, kämen LLMs schließlich längst für die mächtige Produktempfehlungsmaschine zum Einsatz.

Anzeige
DEC_D_Incontent-1

Auch eine mangelnde Investitionsbereitschaft für Lizenzkosten sei unwahrscheinlich, da das Unternehmen mit seinen Amazon Web Services problemlos die Infrastruktur selbst bereitstellen könnte. Zudem habe Amazon ausreichend Erfahrung damit, solche Systeme zu skalieren.

Alexa mit Sprachmodell? Amazon will keine Kontrolle abgeben

Marcus formuliert fünf Gründe, die dazu beitragen, dass Alexa keine Konversationen führen kann (oder eher: darf), obwohl es technisch möglich wäre. Sie laufen letztlich auf einem zentralen Punkt zusammen: LLMs sind noch nicht verlässlich genug für den weitläufigen und automatisierten kommerziellen Einsatz.

  • LLMs sind laut Marcus unzuverlässig,
  • sie sind widerspenstig,
  • Amazon möchte sich nicht angreifbar machen,
  • Kund:innen sollen keine unerfüllbaren Erwartungen bekommen,
  • und LLMs sind für Worte, nicht Aktionen gemacht.

Amazon möchte seinen Kund:innen lieber ein Produkt verkaufen, das einen begrenzten Bereich an Aufgaben zuverlässig erledigt. Sprachmodelle hingegen seien unvorhersehbar und lassen sich schlecht kontrollieren, schreibt Marcus.

Zudem kann GPT-3 zwar einen Strang zusammenhängender Wörter generieren, diese aber noch nicht verlässlich mit Aktionen verknüpfen. Daran arbeiten Start-ups wie Adept oder auch Google bei SayCan.

Anzeige
DEC_D_Incontent-2

Amazon entlässt Mitarbeitende für KI und Konversation

Derzeit sieht es nicht nach einer sprunghaften Weiterentwicklung bei Alexa aus: Vor wenigen Tagen gab Amazon bekannt, dass es inmitten der Big-Tech-Aktienkurskrise tausende Mitarbeitende entlässt.

Vor allem Personal aus den Bereichen der KI-Systeme, Natural Language Processing (NLP) und der Konversationsfähigkeiten seien betroffen. Das könnte ein Indiz sein, dass Amazon die Bemühungen um Alexa zurückfährt, zumindest derzeit nicht forciert. Allein die Alexa-Hardware-Entwicklung soll Amazon laut eines Medienberichts in diesem Jahr zehn Milliarden US-Dollar Verlust eingebracht haben. Keine andere Sparte bei Amazon verursacht derart hohe Verluste.

Vielleicht macht es Google besser, das in den vergangenen Jahren intensiv im Bereich NLP geforscht hat, und auf den Google Assistant als nächstes Interface setzt. Anfang 2023 soll der Google Assistant natürliche Sprechpausen und andere Stolperfallen beim Verständnis menschlicher Sprachbefehle überwinden können.

Zudem rollt Google derzeit die fortschrittliche Dialog-KI LaMDA in einer Testumgebung aus. LaMDA könnte die Grundlage für einen Next-Gen-Assistant und eine neue Form der Internetsuche sein - vorausgesetzt, Google bekommt die laut Marcus "widerspenstigen" LLMs in den Griff.

Denn dass Google LaMDA nur schrittweise ausrollt und seit Monaten intensiv intern testet, hat unmittelbar mit den von Marcus genannten Kritikpunkten zu tun: Es geht um Sicherheit und Verlässlichkeit. In diesem Kontext spielen etwa Vorurteile, Rassismus oder schwer vorhersehbare Aspekte wie das Vorspielen eines Bewusstseins, auf das der Ex-Google-Mitarbeitende Blake Lemoine hereinfiel, eine Rolle.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren