Inhalt
summary Zusammenfassung

Mit "AudioPaLM" erweitert Google das große Sprachmodell PaLM-2 um Audio-Fähigkeiten. Dies ermöglicht unter anderem gesprochene Übersetzungen mit Originalstimme ohne spezifisches Vortraining.

Mit AudioPaLM kombiniert Google das im Mai vorgestellte große Sprachmodell PaLM-2 mit dem eigenen Audiomodell AudioLM in einer zentralen multimodalen Architektur. Das System kann Text und Sprache verarbeiten und generieren und beispielsweise zur Spracherkennung oder zur Generierung von Übersetzungen mit Originalstimme eingesetzt werden.

AudioPaLM's architecture. | Bild: Google

Der Babelfisch rückt näher

Insbesondere die letztgenannte Fähigkeit ist bemerkenswert, da eine Person so in mehreren Sprachen gleichzeitig sprechen kann, wie die folgende Demo zeigt.

Für die Konditionierung auf die Originalstimme genügt ein Beispiel von drei Sekunden Länge, das als Audio- und SoundStream-Token übergeben wird. Ist die Audiodatei kürzer, wird sie wiederholt, bis die drei Sekunden erreicht sind.

Anzeige
Anzeige

AudioPaLM demo. | Video: Google

Durch die Integration von AudioLM ist AudioPaLM in der Lage, qualitativ hochwertige Audiosignale mit Langzeitkonsistenz zu erzeugen. Dies schließt die Fähigkeit ein, semantisch plausible Sprachfortsetzungen zu erzeugen, während Sprecheridentität und Prosodie für Sprecher, die während des Trainings nicht gesehen wurden, erhalten bleiben.

Das Modell kann auch "Zero-Shot"-Übersetzungen von Sprache in Text für viele Sprachen durchführen, einschließlich Sprachkombinationen, die während des Trainings nicht vorkommen. Diese Fähigkeit kann für reale Anwendungen wie mehrsprachige Kommunikation in Echtzeit von großer Bedeutung sein.

AudioPaLM kann auch paralinguistische Informationen wie die Identität des Sprechers und die Intonation erhalten, die bei herkömmlichen Sprach-zu-Text-Übersetzungssystemen oft verloren gehen. Das System soll bestehende Lösungen hinsichtlich der Sprachqualität übertreffen, basierend auf einer automatischen und menschlichen Bewertung.

Neben der Spracherzeugung kann AudioPaLM auch Transkripte erstellen, entweder in der Originalsprache oder direkt als Übersetzung, oder Sprache in der Originalquelle erzeugen. AudioPaLM hat bei Sprachübersetzungs-Benchmarks Spitzenergebnisse erzielt und konkurrenzfähige Leistungen bei Spracherkennungsaufgaben gezeigt.

Empfehlung

Vom Sprachassistenten zur automatischen Mehrsprachigkeit

Die möglichen Anwendungsgebiete sind vielfältig: Sprachassistenten, automatische Transkriptionsdienste und alle anderen Systeme, die geschriebene oder gesprochene menschliche Sprache verstehen oder erzeugen müssen.

Google könnte insbesondere bei YouTube Anwendungsszenarien für KI-generierte mehrsprachige Videos haben: Es könnte z.B. helfen, mehrsprachige Untertitel zu erstellen oder Videos in mehreren Sprachen zu synchronisieren, ohne die Originalstimme des Sprechers zu verlieren.

Die Forscher weisen auf mehrere Bereiche für künftige Forschungsarbeiten hin, darunter das Verständnis der optimalen Eigenschaften von Audio-Token und wie diese gemessen und optimiert werden können. Sie betonen auch den Bedarf an etablierten Benchmarks und Metriken für generative Audioaufgaben, die dazu beitragen würden, die Forschung in diesem Bereich weiter zu beschleunigen.

Weitere Informationen und Demos gibt es auf der Projektseite bei Github.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • AudioPaLM von Google ist ein neues großes Sprachmodell, das text- und sprachbasierte Sprachmodelle kombiniert und sowohl Text als auch Sprache verarbeiten und erzeugen kann. Es zeigt eine hervorragende Leistung bei Aufgaben wie Spracherkennung und Sprache-zu-Sprache-Übersetzung.
  • Das Modell hat die einzigartige Fähigkeit, die Identität des Sprechers und die Intonation während der Übersetzung beizubehalten, selbst für Sprachen und Sprachkombinationen, die während des Trainings nicht gesehen wurden.
  • Zukünftige Forschungsbereiche umfassen das Verständnis optimaler Audio-Token-Eigenschaften, deren Messung und Optimierung sowie die Definition von Benchmarks und Metriken für generative Audioaufgaben, um die Forschung auf diesem Gebiet weiter zu beschleunigen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!