Inhalt
newsletter Newsletter

Mehrsprachige Inhalte können eine wichtige Triebfeder für Content Creators sein, um die Anzahl der Aufrufe in neuen Zielgruppen zu erhöhen. Alexander Konovalov, CEO von vidby, erklärt, wie KI-Tools dabei helfen können.

Anzeige

Mehrsprachige Videos sind zu einem heiligen Gral für Content-Produzenten geworden, die ein globales Publikum erreichen wollen, indem sie Zuschauer mit unterschiedlichen sprachlichen Hintergründen ansprechen. YouTube-Videos, die in mehreren Sprachen synchronisiert sind, verzeichnen nach Angaben des Unternehmens 15 % mehr Aufrufe durch nicht primärsprachliche Zielgruppen.

Traditionell wurden mehrsprachige Inhalte durch menschliche Synchronisation erstellt, bei der der Synchronsprecher die Originalsprache in der Zielsprache wiedergibt. Dieser Prozess ist jedoch relativ kostspielig und zeitaufwändig, was für die Kreativwirtschaft ein erhebliches Hindernis darstellt.

Heute konzentriert sich die KI-gestützte Videosynchronisation auf hohe Genauigkeit der Übersetzung und auch auf die Lippenbewegungen auf dem Bildschirm. Auch wenn der Zuschauer die Originalsprache nicht immer hört, kann er sie aus der Mimik und den Lippenbewegungen des Sprechers ableiten. Unstimmigkeiten, wie z.B. asynchrone Lippenbewegungen, können das Eintauchen des Zuschauers in das Video stören und die vom Autor beabsichtigte Botschaft verwässern.

Anzeige
Anzeige

KI meistert Semantik und Kontexte

Sprache ist voller komplexer Details, und der Kontext kann die Bedeutung eines Wortes oder Satzes erheblich verändern. KI-basierte Lösungen haben oft Schwierigkeiten, diese Kontexte zu verstehen. Vidby verwendet daher Deep-Learning-Modelle, die speziell darauf trainiert sind, den Kontext zu erfassen und so genauere Übersetzungen zu liefern. Das Team verfeinert diese Modelle kontinuierlich durch umfangreiches Nutzer-Feedback, um Übersetzungen zu liefern, die präzise sind und natürlich klingen.

Der Transfer-Learning-Ansatz, bei dem vortrainierte Modelle verwendet werden, die mit vom vidby-Team aufbereiteten Daten angereichert werden, beschleunigt den Lernprozess und verbessert die Ergebnisse. Modelle wie GPT und BERT, die für ihre Fähigkeit bekannt sind, den Kontext zu verstehen, ermöglichen es dem Team, robuste Übersetzungswerkzeuge zu entwickeln.

Die Nuancen von Sprache und Stimmgenerierung

Die natürliche Betonung, der Akzent und der Rhythmus der Sprache können eine Herausforderung für KI darstellen. Um dieses Problem zu lösen, hat vidby Funktionen eingeführt, die die individuelle Aussprache bestimmter Wörter in verschiedenen Sprachen ermöglichen.

Bei der Sprachgenerierung sticht das Deep-Learning-Modell WaveNet hervor. Es ist in der Lage, Sprachwellen zu erzeugen, die natürlich klingen und sicherstellen, dass die KI-generierte Stimme die Feinheiten und Nuancen der menschlichen Sprache beibehält.

Mehr Nuancen bei der Synchronisation von Markennamen

Haben Sie sich schon einmal gefragt, wie unterschiedlich Markennamen in verschiedenen Sprachen klingen? Wenn der Name Ihrer Marke beispielsweise AI Studio lautet, heißt er auf Englisch [ˌeɪˈaɪ] Studio, auf Deutsch jedoch [aːˈiː ˈʃtuːdio].

Empfehlung

Unabhängig von lokalen Regeln oder Normen wollen Markeninhaber und ihre Zielgruppen, dass ihr Markenname in jeder Sprache genau richtig klingt. Wenn der Markenname nicht richtig klingt, werden sich die Kunden kaum für den Rest interessieren.

Aus diesem Grund hat vidby sein proprietäres BrandNameTTS-Modell entwickelt, um Namen in jeder Sprache nach den Regeln der englischen Sprache auszusprechen. Auf diese Weise stellt unsere KI-gestützte Video-Synchronisationslösung sicher, dass der Markenname ankommt.

KI lernt Lippensynchronisation und übernimmt manuelle Arbeit

Die Synchronisation von Videos erfordert die Anpassung der Stimme an die Lippenbewegungen des Sprechers - eine Herausforderung, mit der KI oft zu kämpfen hat. Vidby verwendet Algorithmen, die die Lippenbewegungen analysieren und die Tonspur anpassen, um eine natürliche Synchronisation zu erreichen.

Für diese Synchronisation verwendet das Team ein GAN (Generative Adversarial Network). Dieses Netzwerk besteht aus einem Generator, der den Ton erzeugt, und einem Diskriminator, der die Qualität des Tons bewertet. Durch die Kombination dieser beiden Elemente wird eine präzise Synchronisation erreicht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Wie andere Fortschritte in der Automatisierung hat auch die Lippensynchronisation die manuelle Arbeit der Cutter erheblich reduziert. Videos, die mit Lippensynchronisation synchronisiert wurden, sehen natürlicher aus und bieten eine wettbewerbsfähige Lösung, die bald kostspielige manuelle Prozesse vollständig automatisieren könnten und für die meisten spezifischen Kundenfälle geeignet ist.

Geschwindigkeit und Länge der Sätze sind entscheidend

Die Synchronisation ist auch für die Länge der Sätze wichtig, da diese in den verschiedenen Sprachen unterschiedlich lang sind. Bei der Videosynchronisation ist es wichtig, die Geschwindigkeit der Aussprache zu kontrollieren und gleichzeitig die Länge der Originalphrasen und ihre wahrscheinliche Dauer in der Zielsprache zu bestimmen. Um diesen Aspekt zu berücksichtigen, hat vidby eigene SpeechTempo-Modelle integriert.

Zum Beispiel ist die deutsche Sprache in der Regel 20-30% länger in der Aussprache. Wenn ein deutscher Originalsatz 20 Sekunden dauert, würde eine korrekt übersetzte englische Version etwa 12-14 Sekunden dauern.

In den folgenden 6-8 Sekunden nach der Synthese kann es zu einem Totalausfall der Synchronisation kommen. Deep Learning und neuronale Netze der künstlichen Intelligenz können hier Abhilfe schaffen und synthetische Sprache unter Berücksichtigung von Tempo und Intonation erzeugen. Time-Stretching kann helfen, die Sprechdauer anzupassen und die Synchronisation mit den Lippenbewegungen zu gewährleisten.

Um die Qualität der Sprachausgabe zu verbessern, entwickeln und trainieren konkurrierende Anbieter ihre eigenen neuronalen Netze, um ihre Video-Synchronisationslösungen zu verbessern. KI spielt eine entscheidende Rolle bei der Bestimmung der Länge bestimmter Sätze während der Sprachsynthese und bei der Festlegung von Normwerten für verschiedene Aspekte der Sprache wie Tonhöhe und Lautstärke.

Künftige Grenzen der Videosynchronisation

KI-gestützte Fortschritte in der Videosynchronisation wie Sprachsynthese für verschiedene Altersgruppen und Aussprachekontrolle sind nur die Spitze des Eisbergs. Next-Gen Systeme zum Klonen von Sprache, emotionsgeladene Sprachsynthese und Echtzeit-Simultanübersetzung stehen bereits vor der Tür.

Anzeige
Anzeige

Sie werden die Art und Weise revolutionieren, in der Videokünstler ihre Inhalte entwickeln. KI-gestützte Lösungen für die Videovertonung werden es den Kreativen ermöglichen, ausdrucksstarke Videos zu produzieren, die für ein vielfältiges globales Publikum zugänglich sind.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Alexander Konovalov

Alexander Konovalov ist IT-Unternehmer, Mitgründer und CEO von vidby.com. Sein in der Schweiz ansässiges Startup bietet eine KI-basierte Plattform für automatische Videoübersetzung und -synchronisation in 75 Sprachen mit Stimmen.

Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!