Inhalt
summary Zusammenfassung

Alexa, Siri und Co. galten lange Zeit als das nächste große Ding im Bereich der nächsten Computer-Interfaces, konnten die Erwartungen aber bisher nicht erfüllen. Große Sprachmodelle könnten das ändern.

Um Alexa und Co. auf die nächste Stufe zu heben, braucht es (mindestens) vier Fortschritte:

  • Eine zuverlässige und flexible Spracherkennung,
  • authentische Sprachausgabe
  • eine flexible, konsistente Gesprächsführung
  • inklusive der Ableitung und Ausführung von Aufgaben.

Die Punkte zwei bis vier könnten mit der neuen Generation von Sprachmodellen der ChatGPT-Generation lösbar sein: Sie können glaubwürdige, fortlaufende Dialoge führen und über Werkzeuge wie Plugins oder Code Sprache ausgeben und komplexe Aufgaben ausführen - potenziell deutlich komplexer und flexibler als es Alexa, Siri und Co. heute können.

Während die Umsetzung von Aufgaben mit Werkzeugen noch in den Kinderschuhen steckt, ist die zuverlässige Spracherkennung mit KI-Modellen wie Whisper von OpenAI praktisch gelöst.

Anzeige
Anzeige

Whisper trifft LLaMA

Einen Vorgeschmack auf einen Assistenten der nächsten Generation, der zudem komplett auf Open-Source-Technologie basiert, gibt der Entwickler Georgi Gerganov mit dem "LLaMA Voice Chat". Er hat das OpenAI-Spracherkennungsmodell "Whisper" (small) in C/C++ auf der Apple Neural Engine lauffähig gemacht.

Die Implementierung des Whisper-Modells ist laut Gerganov so performant, dass sie problemlos auf zahlreichen Plattformen läuft: von iOS über Android bis Raspberry Pi und im Browser mit WebAssembly. Das folgende Video zeigt sie auf einem iPhone 13 im Einsatz.

Video: Gerganov

Dabei handelt es sich zunächst "nur" um eine Sprachtranskription auf hohem Niveau. Diese wird durch die Kombination mit anderer Software, wie einem großen Sprachmodell, zu einer Schnittstelle. Zu Demonstrationszwecken verwendet Gerganov ein LLaMA-Sprachmodell von Meta, das Antworten auf per Whisper transkribierten Benutzertext gibt.

Als Prompt für LLaMA verwendet Gerganov unter anderem die Anweisung, dass sich das Modell wie ein hilfsbereiter, freundlicher und ehrlicher Assistent verhalten soll, der gut schreiben kann und direkte, detaillierte Antworten gibt. Das folgende Video zeigt die Whisper-LLaMA-Kombination in Aktion.

Empfehlung

Video: Gerganov

Um ein echter Assistent zu werden, bräuchte LLaMA noch einen zuverlässigen Zugriff auf Werkzeuge wie Smart-Home-Interfaces oder einen Browser-Agenten. Mit dem Aufkommen von Software wie Auto-GPT dürfte dies aber nur noch eine Frage der Implementierung sein. Schon im letzten Herbst zeigte ein Entwickler einen Assistenten, der mit Whisper und GPT-3 Bilder per Stable Diffusion erzeugen kann.

Gerganov bietet seine Whisper-Version sowie die beispielhafte LLaMA-Implementierungen bei Github an.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Große Sprachmodelle ermöglichen glaubwürdige Dialoge mit Computern.
  • Ein Entwickler demonstriert eine schlanke Whisper-Implementierung für ein LLaMA-Sprachmodell, die offline auf einem iPhone 13 läuft.
  • In Kombination mit einer glaubwürdigeren Sprachsynthese und dem Zugang zu Werkzeugen für Sprachmodelle könnten Alexa und Co. so einen zweiten Frühling erleben.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!