Google AudioPaLM kann mit deiner Stimme Texte übersetzen

Midjourney prompted by THE DECODER

Mit "AudioPaLM" erweitert Google das große Sprachmodell PaLM-2 um Audio-Fähigkeiten. Dies ermöglicht unter anderem gesprochene Übersetzungen mit Originalstimme ohne spezifisches Vortraining.

Mit AudioPaLM kombiniert Google das im Mai vorgestellte große Sprachmodell PaLM-2 mit dem eigenen Audiomodell AudioLM in einer zentralen multimodalen Architektur. Das System kann Text und Sprache verarbeiten und generieren und beispielsweise zur Spracherkennung oder zur Generierung von Übersetzungen mit Originalstimme eingesetzt werden.

AudioPaLM's architecture. | Bild: Google

Der Babelfisch rückt näher

Insbesondere die letztgenannte Fähigkeit ist bemerkenswert, da eine Person so in mehreren Sprachen gleichzeitig sprechen kann, wie die folgende Demo zeigt.

Für die Konditionierung auf die Originalstimme genügt ein Beispiel von drei Sekunden Länge, das als Audio- und SoundStream-Token übergeben wird. Ist die Audiodatei kürzer, wird sie wiederholt, bis die drei Sekunden erreicht sind.

AudioPaLM demo. | Video: Google

Durch die Integration von AudioLM ist AudioPaLM in der Lage, qualitativ hochwertige Audiosignale mit Langzeitkonsistenz zu erzeugen. Dies schließt die Fähigkeit ein, semantisch plausible Sprachfortsetzungen zu erzeugen, während Sprecheridentität und Prosodie für Sprecher, die während des Trainings nicht gesehen wurden, erhalten bleiben.

Das Modell kann auch "Zero-Shot"-Übersetzungen von Sprache in Text für viele Sprachen durchführen, einschließlich Sprachkombinationen, die während des Trainings nicht vorkommen. Diese Fähigkeit kann für reale Anwendungen wie mehrsprachige Kommunikation in Echtzeit von großer Bedeutung sein.

AudioPaLM kann auch paralinguistische Informationen wie die Identität des Sprechers und die Intonation erhalten, die bei herkömmlichen Sprach-zu-Text-Übersetzungssystemen oft verloren gehen. Das System soll bestehende Lösungen hinsichtlich der Sprachqualität übertreffen, basierend auf einer automatischen und menschlichen Bewertung.

Neben der Spracherzeugung kann AudioPaLM auch Transkripte erstellen, entweder in der Originalsprache oder direkt als Übersetzung, oder Sprache in der Originalquelle erzeugen. AudioPaLM hat bei Sprachübersetzungs-Benchmarks Spitzenergebnisse erzielt und konkurrenzfähige Leistungen bei Spracherkennungsaufgaben gezeigt.

Empfehlung

KI-Forschung

DeepSeek-R1: Chinesisches Modell erreicht in Benchmarks Reasoning-Leistung von OpenAIs o1

Vom Sprachassistenten zur automatischen Mehrsprachigkeit

Die möglichen Anwendungsgebiete sind vielfältig: Sprachassistenten, automatische Transkriptionsdienste und alle anderen Systeme, die geschriebene oder gesprochene menschliche Sprache verstehen oder erzeugen müssen.

Google könnte insbesondere bei YouTube Anwendungsszenarien für KI-generierte mehrsprachige Videos haben: Es könnte z.B. helfen, mehrsprachige Untertitel zu erstellen oder Videos in mehreren Sprachen zu synchronisieren, ohne die Originalstimme des Sprechers zu verlieren.

Die Forscher weisen auf mehrere Bereiche für künftige Forschungsarbeiten hin, darunter das Verständnis der optimalen Eigenschaften von Audio-Token und wie diese gemessen und optimiert werden können. Sie betonen auch den Bedarf an etablierten Benchmarks und Metriken für generative Audioaufgaben, die dazu beitragen würden, die Forschung in diesem Bereich weiter zu beschleunigen.

Weitere Informationen und Demos gibt es auf der Projektseite bei Github.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Google AudioPaLM kann mit deiner Stimme Texte übersetzen

Der Babelfisch rückt näher

DeepSeek-R1: Chinesisches Modell erreicht in Benchmarks Reasoning-Leistung von OpenAIs o1

Vom Sprachassistenten zur automatischen Mehrsprachigkeit

OpenAI launcht "ChatGPT Record": Audio aufnehmen, transkribieren, zusammenfassen

RUBICON: Neues Bewertungssystem für KI-Unterhaltungen in der Softwareentwicklung

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

OpenAI entdeckt nach Sora-App-Launch plötzlich das Urheberrecht

Google AudioPaLM kann mit deiner Stimme Texte übersetzen

Der Babelfisch rückt näher

Vom Sprachassistenten zur automatischen Mehrsprachigkeit

Artikel teilen

Bankverbindung