Mit "AudioPaLM" erweitert Google das große Sprachmodell PaLM-2 um Audio-Fähigkeiten. Dies ermöglicht unter anderem gesprochene Übersetzungen mit Originalstimme ohne spezifisches Vortraining.
Mit AudioPaLM kombiniert Google das im Mai vorgestellte große Sprachmodell PaLM-2 mit dem eigenen Audiomodell AudioLM in einer zentralen multimodalen Architektur. Das System kann Text und Sprache verarbeiten und generieren und beispielsweise zur Spracherkennung oder zur Generierung von Übersetzungen mit Originalstimme eingesetzt werden.
Der Babelfisch rückt näher
Insbesondere die letztgenannte Fähigkeit ist bemerkenswert, da eine Person so in mehreren Sprachen gleichzeitig sprechen kann, wie die folgende Demo zeigt.
Für die Konditionierung auf die Originalstimme genügt ein Beispiel von drei Sekunden Länge, das als Audio- und SoundStream-Token übergeben wird. Ist die Audiodatei kürzer, wird sie wiederholt, bis die drei Sekunden erreicht sind.
Durch die Integration von AudioLM ist AudioPaLM in der Lage, qualitativ hochwertige Audiosignale mit Langzeitkonsistenz zu erzeugen. Dies schließt die Fähigkeit ein, semantisch plausible Sprachfortsetzungen zu erzeugen, während Sprecheridentität und Prosodie für Sprecher, die während des Trainings nicht gesehen wurden, erhalten bleiben.
Das Modell kann auch "Zero-Shot"-Übersetzungen von Sprache in Text für viele Sprachen durchführen, einschließlich Sprachkombinationen, die während des Trainings nicht vorkommen. Diese Fähigkeit kann für reale Anwendungen wie mehrsprachige Kommunikation in Echtzeit von großer Bedeutung sein.
AudioPaLM kann auch paralinguistische Informationen wie die Identität des Sprechers und die Intonation erhalten, die bei herkömmlichen Sprach-zu-Text-Übersetzungssystemen oft verloren gehen. Das System soll bestehende Lösungen hinsichtlich der Sprachqualität übertreffen, basierend auf einer automatischen und menschlichen Bewertung.
Neben der Spracherzeugung kann AudioPaLM auch Transkripte erstellen, entweder in der Originalsprache oder direkt als Übersetzung, oder Sprache in der Originalquelle erzeugen. AudioPaLM hat bei Sprachübersetzungs-Benchmarks Spitzenergebnisse erzielt und konkurrenzfähige Leistungen bei Spracherkennungsaufgaben gezeigt.
Vom Sprachassistenten zur automatischen Mehrsprachigkeit
Die möglichen Anwendungsgebiete sind vielfältig: Sprachassistenten, automatische Transkriptionsdienste und alle anderen Systeme, die geschriebene oder gesprochene menschliche Sprache verstehen oder erzeugen müssen.
Google könnte insbesondere bei YouTube Anwendungsszenarien für KI-generierte mehrsprachige Videos haben: Es könnte z.B. helfen, mehrsprachige Untertitel zu erstellen oder Videos in mehreren Sprachen zu synchronisieren, ohne die Originalstimme des Sprechers zu verlieren.
Die Forscher weisen auf mehrere Bereiche für künftige Forschungsarbeiten hin, darunter das Verständnis der optimalen Eigenschaften von Audio-Token und wie diese gemessen und optimiert werden können. Sie betonen auch den Bedarf an etablierten Benchmarks und Metriken für generative Audioaufgaben, die dazu beitragen würden, die Forschung in diesem Bereich weiter zu beschleunigen.
Weitere Informationen und Demos gibt es auf der Projektseite bei Github.