Next-Gen-Sprachchat: OpenAIs Whisper flüstert zu Metas LLaMA

18. April 2023 Matthias Bastian

Ein alter Mann flüster zu einem Llama, KI-Kunst, generiert mit Midjourney

Alexa, Siri und Co. galten lange Zeit als das nächste große Ding im Bereich der nächsten Computer-Interfaces, konnten die Erwartungen aber bisher nicht erfüllen. Große Sprachmodelle könnten das ändern.

Um Alexa und Co. auf die nächste Stufe zu heben, braucht es (mindestens) vier Fortschritte:

Eine zuverlässige und flexible Spracherkennung,
authentische Sprachausgabe
eine flexible, konsistente Gesprächsführung
inklusive der Ableitung und Ausführung von Aufgaben.

Die Punkte zwei bis vier könnten mit der neuen Generation von Sprachmodellen der ChatGPT-Generation lösbar sein: Sie können glaubwürdige, fortlaufende Dialoge führen und über Werkzeuge wie Plugins oder Code Sprache ausgeben und komplexe Aufgaben ausführen - potenziell deutlich komplexer und flexibler als es Alexa, Siri und Co. heute können.

Während die Umsetzung von Aufgaben mit Werkzeugen noch in den Kinderschuhen steckt, ist die zuverlässige Spracherkennung mit KI-Modellen wie Whisper von OpenAI praktisch gelöst.

Whisper trifft LLaMA

Einen Vorgeschmack auf einen Assistenten der nächsten Generation, der zudem komplett auf Open-Source-Technologie basiert, gibt der Entwickler Georgi Gerganov mit dem "LLaMA Voice Chat". Er hat das OpenAI-Spracherkennungsmodell "Whisper" (small) in C/C++ auf der Apple Neural Engine lauffähig gemacht.

Die Implementierung des Whisper-Modells ist laut Gerganov so performant, dass sie problemlos auf zahlreichen Plattformen läuft: von iOS über Android bis Raspberry Pi und im Browser mit WebAssembly. Das folgende Video zeigt sie auf einem iPhone 13 im Einsatz.

https://the-decoder.de/wp-content/uploads/2023/04/gerganov_whisper_iphone_demo.mp4?_=1

Video: Gerganov

Dabei handelt es sich zunächst "nur" um eine Sprachtranskription auf hohem Niveau. Diese wird durch die Kombination mit anderer Software, wie einem großen Sprachmodell, zu einer Schnittstelle. Zu Demonstrationszwecken verwendet Gerganov ein LLaMA-Sprachmodell von Meta, das Antworten auf per Whisper transkribierten Benutzertext gibt.

Als Prompt für LLaMA verwendet Gerganov unter anderem die Anweisung, dass sich das Modell wie ein hilfsbereiter, freundlicher und ehrlicher Assistent verhalten soll, der gut schreiben kann und direkte, detaillierte Antworten gibt. Das folgende Video zeigt die Whisper-LLaMA-Kombination in Aktion.

https://the-decoder.de/wp-content/uploads/2023/04/whisper_llama_demo.mp4?_=2

Video: Gerganov

Um ein echter Assistent zu werden, bräuchte LLaMA noch einen zuverlässigen Zugriff auf Werkzeuge wie Smart-Home-Interfaces oder einen Browser-Agenten. Mit dem Aufkommen von Software wie Auto-GPT dürfte dies aber nur noch eine Frage der Implementierung sein. Schon im letzten Herbst zeigte ein Entwickler einen Assistenten, der mit Whisper und GPT-3 Bilder per Stable Diffusion erzeugen kann.

Gerganov bietet seine Whisper-Version sowie die beispielhafte LLaMA-Implementierungen bei Github an.

Quellen:

Github